教坏 AI「画虎蓝」? 国外玩家让 DALL· E、Imagen、MidJourney 等不同的 AI 画家《虎戴 VR》仙拼仙
谁能曾想,宋朝的老虎们,有一天能在被玩出新的花样。
最近有几个利用AI来绘画的神器,只要你给一句话,AI就能生成符合语意的图片。 其中之一是 谷歌 的 AI 创作神器 Imagen。 然后不知道是哪位国外网友先想到的,给 Imagen 出了道题:「给宋代的东方老虎佩戴 VR」,Imagen 「啪的一下」就做出了一幅力作 ──《虎戴 VR》。
不仅是画风上,VR 头戴跟老虎以及整幅画作能够保持一致。 就连手柄、双虎嬉戏的感觉也都一步到位的画了出来。 然后还有两只老虎戴VR,手牵着手一起“恰恰恰”的:
甚至 Imagen 还别出心裁地设计了个「连接版」VR:
不过,正如前面所说的,在 AI 作画这事上,除了 谷歌 Imagen 之外还有很多神器。 于是,一场《虎戴VR》作画大战就此拉开序幕。
DALL-E 也来请战
首先来应战的,是 OpenAI 家的 DALL・E。 网友 Jacob 出于好奇,便用它做了几幅来做比较。
首先是满满“定妆照”风格的《虎戴 VR》:
不难看出DALL・E 的画作和 Imagen 在风格上还是有很大的区别,Imagen 的画作更趋于简约线条风,而 DALL・E 则更多了些许油画的元素。 不过在意境方面,DALL・E 也是能够产出「双虎嬉戏」,甚至是拟人的画作:
二者相比之下,网友们所说了他们的评价:
大多數網友們對谷歌家的 Imagen 更買單。
而除了它倆之外,像 AI 繪畫神器 MidJourney 也參與到了此次「大戰」,不過它的作品,就顯得略有些詭異了……
DALL· E 和 Imagen
那么,同样作为 AI 创作神器,最近大火的 Imagen 和 DALL・E 为何画风会截然不同呢? Open AI 的 DALL・E 和 谷歌 的 Imagen,都可以直接通过文字描述生成类似超现实主义的图像,让机器也能拥有设计师般的创造力。
不过,二者的「创作」原理大不相同。 DALL・E 2 采用 CLIP 将文字特征映射到图像特征,然后指导一个 GAN 或扩散模型生成图像。 所谓 CLIP,是一个在各种图像和文字上训练的神经网络,对生成的多张图片进行排序,挑选出更好的生成结果进行展示。
而 谷歌 的 Imagen 则使用纯语言模型只负责编码文字特征,把文字到图像转换的工作丢给了图像生成模型。 语言模型部分使用的是 谷歌 自己的 T5-XXL 编码器,将训练好的文字冻结。 图像生成部分则是一系列扩散模型,先生成低分辨率图像,再逐级超采样。
谷歌 的 T5-XXL 有 46 亿个参数,而扩大文字编码器的规模,可以有效改善文字到图像的对应关系,和图像的保真度。 此外,Imagen 还使用了另一种称为 noise conditioning augmentation 的扩散技术,帮助模型学习已添加的噪声量,从而提高图像的还原性。
对比来看,Imagen 似乎比 DALL・E 更具有「写实」的特点:
目前,在Imagen官网上已涌现出各种新奇的图像。
有人给浣熊戴上了航天员头盔。
泰迪熊在这里开始游蝶泳。
还有老鹰型的巧克力冰淇淋。
截至目前,Imagen 和 DALL・E 都还在调试阶段,尚未向公众开放。
One More Thing
这次《虎戴VR》AI作画大战中,也不乏有失败的作品,例如有网友就所说了用DALL・E mini来生成的示例。
不难看出,在这版中的《虎戴VR》中,并没有任何VR的出现,而且老虎的面部基本上都是模糊不清。 据网友描述,在生成的过程中,只是把「北宋」改成了「南宋」,画作最难的「形象性」,在这次有所下降。
那么你觉得《虎戴VR》,哪家AI神器更强一些呢?