Sora OpenAI 是什么? 如何使用? 与真实影像比较

自 ChatGPT 问世后,各类 AI 生成技术彷佛雨后春笋般涌现,其中「视频生成」更是不少 AI 公司相互竞争的热门领域,而近期 OpenAI 新发布的视频生成式 AI 「Sora」更是引起全球热烈关注,即使你不懂剪辑软件、不擅拍摄,未来也可以通过指令输入,让 Sora 帮你制作出精致的短视频!

那 Sora 到底是什么呢? 又该如何使用呢? 以下就让瓦特带大家一起来了解 OpenAI 旗下的影像生成 AI -「Sora」吧!

什么是 Sora OpenAI?

简单来说,Sora 就是款由 OpenAI 新开发的视频生成式 AI,用户只要于 Sora 中输入指令文字,便可一次性让其生成出长达 1 分钟的视频内容。

听到这里或许有些人会觉得:「奇怪? 视频生成 AI 不是早就有了吗? Sora 难道就比较特别吗?」

其实 Sora 相比之前任何一款视频生成 AI 来说,它真的厉害很多,不论是人物真实性、画面流畅度、动画特效呈现,各方表现都有明显进步,甚至还可以制作出带有简易故事性的短影音。

▉ Sora 运作原理与应用

Sora 之所以能比其他影像生成式 AI 更厉害,这点可从其运作原理来理解,通常我们使用的图像生成 AI,比如说 Midjourney、Imagen、DALL· E 3 等等,基本上都是以 Diffusion Models 这项扩散模型进行图像训练与生成,而 Diffusion Models 生成原理主要是先从一团噪声开始,AI 会依据指令逐格逐格补上作画细节; 然而 Diffusion Models 并无法理解事物的前因后果,虽然可以生成出接近完美的静态图,但用于连续性的视频生成上,就会漏洞百出,出现像是「威尔史密斯吃面」这类的奇怪 AI 生成影像。

不过 Sora 就不一样了。 根据 OpenAI 的描述,Sora 采用的是一种名为「Diffusion transformer」模型,不仅具备 Diffusion 可将自然语言转换视觉表现(图像、影像)的能力,更是兼备类似于 ChatGPT 理解力,可针对画面与时间连续性进行演算,让影像呈现更加合理。

▼Sora 可将可视化数据进行转换

Sora OpenAI 是什么? 如何使用? 与真实影像比较

Sora 的诞生可能会让不少从事电影拍摄、广告制作、YT 影音工作者感到畏惧,深怕其强大的影像生成技术会让他们丢了饭碗,但其实也不一定,依照现有信息,目前 Sora 主要以 1 分钟左右的短视频制作为主,再加上它依旧存在些缺点(后续会详细论述),给瓦特的感觉较偏向辅助型工具,并无法替代大多数的影音创作者,比如说 YTr,用户并无法仅靠 Sora 就制作出一个逻辑架构严密、内容有条有理的 10 分钟视频; 但却可以用 Sora 来生成视频中说明性或解释用的素材,不再只有网络上免费或付费素材可用,既可丰富视频内容,还能省下部分制作时间。

除了上述YTr案例外,类似手法也可应用其他视频制作上,像是网红社群影音、厂商短广告、教职员教程视频等等,让不擅于拍摄视频的创作者有其他管道可将自己的创意、想法影像化。

  • 应用(1):利用文字脚本建构 1 分钟短片,比如广告、预告片、教育短片等等。
  • 应用(2):更多的视频素材可供选择,可用来制作说明素材、特效等等,增添视频丰富性。
  • 应用(3):社群媒体建构,可制作 FB、IG 等社群平台上的短影音,像是旅游日记、搞笑影像、个性化短片等等。

▼Sora 可应用于各类影像制作,协助创作者(示意图)

Sora OpenAI 是什么? 如何使用? 与真实影像比较

▉ Sora 生成影像与真实影像比较

虽然 Sora 于影像生成上有很大的突破性,但 Sora 所生成的影像与真实影像还是略有差异性,至于差异性有哪些呢? 先不谈 AI 生成上可能会有的不合理或不自然动作,即使是没有明显瑕疵的 Sora 生成图像,相比于真实影像,两者间依旧有肉眼可见的差异性。

依瓦特个人主观感受来说,瓦特认为 Sora 生成影像对比真实影像有以下几点特色:

  • 特色(1)、过于完美
    就以下方「人眼」影像来说明, Sora 生成的人眼影像虽然动作自然,并渲染脸部中的毛孔、皮纹等细节,但相对于真实影像来说,Sora 生成影缺乏油光、血丝、痘疤等正常人常有的缺陷,过于完美降低了视频的真实性。
  • 特色(2)、电影感、游戏感较为突出
    Sora 影像加入了不少电影或动画才有的戏剧感,像是光影呈现、运镜风格等等,再加上先前所提画面过于完美,有时候反而让人觉得比起真实影像,AI 生成影像更像加入特效感的短电影。
    不过这也并非全然是缺点,或许对不少人来说,影像的戏剧张力比起真实性更加重要,这反而才是他们希望 AI 能带来的效果也说不定。

▉ Sora 生成影像有哪些缺点?

从 OpenAI 提供的官方信息与图像,Sora 所生成影像有不少瑕疵,其中比较显著的有 2 点:

  • 缺点(1)、远景容易出错
    首先第一点,Sora 远景呈现上相对不精细,如果你仔细挖掘的话,会发现 OpenAI 提供的 Sora 生成式影像不少远影都有明显瑕疵,比如说:路人走路方式不符合人体工学、广告牌文字不正确等等。

▼ Sora 远景部分容易出现瑕疵,比如说下方视频,不仅广告牌文字没有意义、左侧的白衣路人走路方式也不正常

  • 缺点(2)、难以准确模拟复杂的物理原理
    Sora 另外一项致命的问题在于无法理解事物具体的因果关系,导致 Sora 难以正确模拟复杂的物理现象,容易生成出不符合物理法则的视频,比如说:当一个人咬了一口苹果,苹果却没有出现任何咬痕。

Sora OpenAI 该如何使用?

▉ Q1、Sora 何时开放给大众使用?

目前Sora尚未开放给大众使用,仅提供给OpenAI招募的红队演练团队成员进行测试,其中也包含些视觉艺术家、制片商、设计师、电影制作人等相关领域人士,主要评估Sora潜在风险与危机,并消除极端暴力、仇恨等错误。

至于未来推出时间? 目前 OpenAI 尚未公开确切消息,或许还要等待一段时间也说不定。

▉ Q2、Sora 如何生成视频?

由于 Sora 尚未正式开放,具体操作方式尚无法准确得知; 不过从 ChatGPT 等生成式 AI 的操作方是来看,没意外的话应该还是要先注册 OpenAI 帐号,之后再通过文字指令进行影像生成。 (备注:待 Sora 推出后,本段会进一步更新

  • 推测步骤:注册或登入 OpenAI 帐号 → 输入相关指令 → 点击确认完成视频生成。

总结、Sora 未来可能带来的风险?

Sora之所以要进行严格的评估,主要与Sora的潜在风险有很大的关系,Sora作为一款AI生成工具,方便是很方便,但它衍生的潜在危险也可能严重影响现代社会,尤其是以下2点可能最为明显。

  • 部分产业可能受到挑战
  • 假信息乱象更为严重

▉ 潜在危机(1)、部分产业可能受到挑战

虽然 Sora 所生成的视频并不完善、瑕疵也不少,像是上述提到的「远景问题」、「物理现象不准确」等等,都是值得改进的项目。 依现阶段来观察,Sora 对于电影、电视、YTr、新闻媒体等影视相关产业,造成的冲击可能并不会很大; 但广告公司就不好说了。

由于 Sora 可以快速生成出 1 分钟长度的视频,再加上普罗大众对于广告要求并不会像电影、电视节目那般严格,只要有足够的创意发想,即使是 AI 生成的广告也可以打动人心,这情况可能会使部分预算受限的品牌主改用 Sora 来自行制作广告,而非请广告商负责,不仅能节省视频制作、模特儿聘请等费用,制作上也更加没有难度, 对于中小资本的广告商还说无疑是一大挑战。

▼ 相比于电影产业,广告产业或许受到的冲击会更加明显

Sora OpenAI 是什么? 如何使用? 与真实影像比较

▉ 潜在危机(2)、假信息乱象更为严重

另一项更大的问题则在于「假资讯乱象」,有心人士可藉由 Sora 制作假新闻、假消息,比如说刻意抹黑不喜欢的政治人物影响选情; 或是挑拨族群对立制作社会对立,这些问题都是很有可能发生的。

听到这里,可能有些人会问瓦特:「Sora 生成视频不是与真实视频有很大的差异吗? 人真的有那么容易被骗吗?」

其实这还真的有可能,通常我们人类在理解信息时会以「懒惰脑」与「认真脑」两种不同方式来接收,其中「懒惰脑」又是我们最常、最方便接收信息的方式,包含滑手机、浏览社群、阅读网络新闻等等,基本上我们大多不会 100% 投入高专注度于上方,仅会以最简单的方式快速理解,这就有可能导致我们无法于第一时间去区别该影像是否真实, 也无法辨别内容的正确性,导致误信的机率大幅度提高。

另外,Sora 视频制作门槛又很低,不需要会剪片、不需要会摄影,这几乎使人人都能成为视频创作者,包含 IG、FB、X 在内,可以预期 Sora 开放后,很快各大社群就会被大量的 AI 视频占据,进而衍生另一种 AI 诈骗模式。

▼ Sora 可能会使假新闻更容易生成,导致假信息乱更严重

Sora OpenAI 是什么? 如何使用? 与真实影像比较
(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

发表评论

登录后才能评论