除了做梗图还有什么功用？ AI图片生成器Dall-E Mini入门教学

最近在推特和Reddit上出现了很多由九宫格图片组成的网络迷因，像是「戴着墨西哥帽的仓鼠哥斯拉袭击东京的行车记录器画面」，或是「在脱衣舞厅的最后的晚餐」等内含疯狂想法的梗图。

▲ 戴着墨西哥帽的仓鼠哥斯拉袭击东京的行车记录器画面

▲ 在脱衣舞厅的最后的晚餐

▲ 电子显微镜下的米老鼠

除了做梗图还有什么功用？ AI图片生成器Dall-E Mini入门教学 ▲ 达斯·维达外型的Nespresso胶囊咖啡机

▲ 查抄哈比人之家的特种部队

但这些主题包罗万象的图片究竟是哪位灵感取之不尽的艺术家制作的呢？事实上，这些五花八门的图片全都来自于AI图片生成器——Dall-E Mini。

DALL· E是什么？

DALL· E是一种利用AI人工智能生成图像的图片产生器，并在命名上参考了超现实艺术家萨尔瓦多·达利（Salvador Dalí）和皮克斯（Pixar）动画人物瓦力（WALL· E）。

2021年 1月，非营利的人工智能研究组织OpenAI发布「DALL-E」，此人工智能程序拥有120亿参数的GPT-3自回归语言模型，可理解用自然语言（natural language）表达的文字描述，并生成图片。而在2022年4月，OpenAI更是发表了「DALL-E 2」。相较于初代的DALL-E，DALL-E 2除了再度强调「能从文本描述中生成原创且逼真的图像艺术」，也展现了更为出色的制图和作画功力。不仅生成的图片更细致，甚至还能改编画作的风格。

DALL-E 1、DALL-E 2比较丨截图自 https://openai.com/dall-e-2/ ▲ DALL-E 1、DALL-E 2比较丨截图自 https://openai.com/dall-e-2/

OpenAI目前已将DALL-E 2开放给上千名开发者试用，但并未对外公开开放使用，只有少部份所有权限者才能使用或进行相关研究。于是，Boris Dayma等多位工程师在Github结合「CompVis」图像数据库开发了「Dall-E Mini」，免费释出给大众使用。

Dall-E Mini是以开源模型 DELL-E为基础加工，如同其他的机器学习模型，DALL-E从网络上浏览了成千上万张的图片数据库，才学会如何按照文字叙述来绘制图片。不过，Dall-E Mini作为简易版「DALL-E」，所产生的图片细致度和品质较差，但合成出来的图像仍大致可以辨识。

如何使用Dall-E Mini？

使用Dall-E Mini并没有设备上的要求，任何人都能从浏览器上免费使用DALL-E Mini，只要在产生器网页上，以英文输入图片描述词，并点击「Run」，AI就会自动帮你生成图片。最后，点击下方的「Screenshot」即可储存一张含关键词输入框的截图。

前往Dall-E Mini：https://huggingface.co/spaces/dalle-mini/dalle-mini

虽然网络上有许多利用Dall-E Mini制作的梗图，Dall-E Mini也成为拿来突破次元壁的利器之一。但除此之外，Dall-E Mini还能画出什么？

Dall-E Mini制图情况简介

虽然根据使用的文本不同，每个人的Dall-E Mini体验历程会有些许差异，但下列两点基本可概括Dall-E Mini的制图情况：

生成时间

Dall-E Mini生成图片的时间与描述词的复杂程度基本成正比，如果使用了较长的文本，就需要多等一阵子才能获得图片，但只输入一句描述词的情况下，大多只需50-60秒就能完成一张图片。

以下使用了同为AI图片产生器的Disco Diffusion所提供的示例描述词「A beautiful painting of a singular lighthouse， shining its light across a tumultuous sea of blood by greg rutkowski and Thomas kinkade， Trending on artstation.来实测图片的生成时长，约需60秒。

▲ Disco Diffusion官方示例描述词产生图丨源自Dall-E Mini

运行结果

由于是利用AI自动演算图片，所以就算输入两次相同的描述词，Dall-E Mini的运行结果也不尽相同。如果对生成的结果不甚满意，可先保留当前结果，再多尝试几遍，说不定可以得到较合心意的成果。此外，Dall-E Mini 生成的脸部五官大多较模糊，所以如果没有特殊需求，在使用 Dall-E Mini 时，比起生物更建议输入和「景物」相关的词汇。