苹果发布开源 AI Model – MGIE 以文字指令编辑图像

苹果近日发布了一款新的开源 AI Model,名为「MGIE」,能够根据自然语言指令来编辑图像。 MGIE 的全名为 MLLM-Guided Image Editing,它运用多模态大型语言模型(MLLMs)来解读用户命令,并进行像素级的操作。 该 AI Model 能够处理各种编辑方面,包括 Photoshop 风格的修改、全局照片优化以及局部编辑。

苹果发布开源 AI Model – MGIE 以文字指令编辑图像

MGIE 是苹果与加州大学研究人员合作的成果,这 AI Model 在 2024 年的 ICLR(国际学习表示会议)上被接受发布,ICLR 是 AI 研究领域的顶尖会议之一。 论文展示了 MGIE 在提升自动度量和人类评估方面的有效性,同时保持了竞争性的推理效率。

MGIE 的基础理念是运用能够同时处理文本和影像的强大人工智能模型——多模态大型语言模型(MLLMs),来增强基于指令的影像编辑。 MLLMs 在跨模态理解和视觉感知的回应生成方面展现出了显著的能力,但它们尚未广泛应用于图像编辑任务上。

MGIE 以两种方式将 MLLMs 整合进图像编辑过程中:首先,它使用 MLLMs 从用户输入中导出富有表达力的指令。 这些指令简洁明了,为编辑过程提供了明确的指导。 例如,给定输入「使天空更蓝」,MGIE 能够产生「将天空区域的饱和度增加 20%」的指令。

其次,它使用 MLLMs 生成视觉想象,即所需编辑的潜在表征。 这一表征捕捉了编辑的本质,可以用来指导像素级的操作。 MGIE 采用了一种新颖的端到端训练方案,共同优化指令导出、视觉想象和影像编辑模块。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论