Nano Banana是很强,可以说是目前一致性做的最好的模型了,但是说要取代PS,那的确还有距离。 我提供了这么一张图片,就是英国最常见的牛奶。

原始图片

我让Gemini 2.5 Flash,也就是Nano Banana给我把2 Litres换成1 Litres,需求并不复杂,唯一的难度估计就是文字在侧面,不是正对屏幕。

生成效果

生成的效果粗看非常棒。

对比效果

放在一起看几乎没有任何差别。

瓶身凹痕对比

瓶身的两个凹痕一模一样。

细节对比

甚至类似于水印,不仔细都会漏掉的跟脏东西一样的东西都非常像。

但这一步其实已经非常强了,但是我还是要说,细节还是不够。

细节分析

这七点算是非常明显的:

  • Litres,它直接搞混了,不知道创造了一个什么单词,粗看像
  • Recycle可回收的标志不对,字肯定也不对
  • USE BY,像但不对,SE已经被改的面目全非了
  • 保质期的数字也是像
  • MILK的字体都变了,其实证明的气体也变了,横都不直了
  • 字不对
  • 应该是keep refrigerated,又是像,但不对

但是怎么说呢,瑕不掩瑜,它已经可以做到形似甚至神似了,但是我考察到像素点级别也确实有点儿难为人了。

Nano Banana在这一点上其实已经非常接近”傻瓜式修图”的理想境界了。以前这种需求,哪怕是在PS里操作,也得花上几分钟,先抠字、再匹配字体、再调整透视,最后还要修补阴影和边缘。而现在只要一句话,它就能生成一个足以以假乱真的结果。

能从这个结果看到,Gemini走的应该还是DIffusion那一套。

技术分析

但问题也同样明显:一致性做到极致并不意味着”可控性”也达到了。比如在这个牛奶瓶的例子里,它把「2 Litres」改成「1 Litres」的同时,却不可避免地”波及”了周边的一些元素,导致Recycle、Use By、Keep Refrigerated 这些细节出现了肉眼可见的偏差。

这其实揭示了一个更深层的问题:Diffusion 系模型在局部替换时,本质上还是在”重构整个画面”,它会生成一个与原图相似度极高的版本,而不是严格意义上的”逐像素覆盖”。所以当我们说它”像素级复现”的时候,本质是概率意义上的趋同,而不是严格的拷贝。

也就是说,它的优势在于自然感和整体一致性,而劣势就在于精确可控性。这也是为什么说”取代PS”还有距离:PS是矢量式、确定性的,你改哪里就只改哪里;而AI修图是概率式、生成性的,它会”照顾”上下文,但同时也会”过度照顾”。

不过,回过头来说,这种”过度”反而可能是未来的价值所在。它意味着AI在做的不仅是修改,而是在”理解+再创造”。就像我这里的例子,它已经不单是把 2 改成 1,而是几乎重新”再画”了一张瓶身标签。

所以结论很微妙:它离PS还有差距,但它也不是PS的替代品,而是另一条路线。未来可能出现的是两者的融合——AI负责生成自然感,PS负责精准控制。

最后,Lecun日思夜想的World Model恐怕要在Google手里面诞生了。

World Model展望
Google vs Meta对比

视觉,听觉,思维,Google现在每一个维度都在碾压Meta。