教坏 AI「画虎蓝」？国外玩家让 DALL· E、Imagen、MidJourney 等不同的 AI 画家《虎戴 VR》仙拼仙

谁能曾想，宋朝的老虎们，有一天能在被玩出新的花样。

最近有几个利用AI来绘画的神器，只要你给一句话，AI就能生成符合语意的图片。其中之一是谷歌的 AI 创作神器 Imagen。然后不知道是哪位国外网友先想到的，给 Imagen 出了道题：「给宋代的东方老虎佩戴 VR」，Imagen 「啪的一下」就做出了一幅力作 ──《虎戴 VR》。

不仅是画风上，VR 头戴跟老虎以及整幅画作能够保持一致。就连手柄、双虎嬉戏的感觉也都一步到位的画了出来。然后还有两只老虎戴VR，手牵着手一起“恰恰恰”的：

甚至 Imagen 还别出心裁地设计了个「连接版」VR：

不过，正如前面所说的，在 AI 作画这事上，除了谷歌 Imagen 之外还有很多神器。于是，一场《虎戴VR》作画大战就此拉开序幕。

首先来应战的，是 OpenAI 家的 DALL・E。网友 Jacob 出于好奇，便用它做了几幅来做比较。

首先是满满“定妆照”风格的《虎戴 VR》：

不难看出DALL・E 的画作和 Imagen 在风格上还是有很大的区别，Imagen 的画作更趋于简约线条风，而 DALL・E 则更多了些许油画的元素。不过在意境方面，DALL・E 也是能够产出「双虎嬉戏」，甚至是拟人的画作：

二者相比之下，网友们所说了他们的评价：

大多數網友們對谷歌家的 Imagen 更買單。

而除了它倆之外，像 AI 繪畫神器 MidJourney 也參與到了此次「大戰」，不過它的作品，就顯得略有些詭異了……

那么，同样作为 AI 创作神器，最近大火的 Imagen 和 DALL・E 为何画风会截然不同呢？ Open AI 的 DALL・E 和谷歌的 Imagen，都可以直接通过文字描述生成类似超现实主义的图像，让机器也能拥有设计师般的创造力。

不过，二者的「创作」原理大不相同。 DALL・E 2 采用 CLIP 将文字特征映射到图像特征，然后指导一个 GAN 或扩散模型生成图像。所谓 CLIP，是一个在各种图像和文字上训练的神经网络，对生成的多张图片进行排序，挑选出更好的生成结果进行展示。

而谷歌的 Imagen 则使用纯语言模型只负责编码文字特征，把文字到图像转换的工作丢给了图像生成模型。语言模型部分使用的是谷歌自己的 T5-XXL 编码器，将训练好的文字冻结。图像生成部分则是一系列扩散模型，先生成低分辨率图像，再逐级超采样。

谷歌的 T5-XXL 有 46 亿个参数，而扩大文字编码器的规模，可以有效改善文字到图像的对应关系，和图像的保真度。此外，Imagen 还使用了另一种称为 noise conditioning augmentation 的扩散技术，帮助模型学习已添加的噪声量，从而提高图像的还原性。

对比来看，Imagen 似乎比 DALL・E 更具有「写实」的特点：

目前，在Imagen官网上已涌现出各种新奇的图像。

有人给浣熊戴上了航天员头盔。

泰迪熊在这里开始游蝶泳。

还有老鹰型的巧克力冰淇淋。

截至目前，Imagen 和 DALL・E 都还在调试阶段，尚未向公众开放。

这次《虎戴VR》AI作画大战中，也不乏有失败的作品，例如有网友就所说了用DALL・E mini来生成的示例。

不难看出，在这版中的《虎戴VR》中，并没有任何VR的出现，而且老虎的面部基本上都是模糊不清。据网友描述，在生成的过程中，只是把「北宋」改成了「南宋」，画作最难的「形象性」，在这次有所下降。

那么你觉得《虎戴VR》，哪家AI神器更强一些呢？

教坏 AI「画虎蓝」？ 国外玩家让 DALL· E、Imagen、MidJourney 等不同的 AI 画家《虎戴 VR》仙拼仙