Sora OpenAI 是什么？如何使用？与真实影像比较

自 ChatGPT 问世后，各类 AI 生成技术彷佛雨后春笋般涌现，其中「视频生成」更是不少 AI 公司相互竞争的热门领域，而近期 OpenAI 新发布的视频生成式 AI 「Sora」更是引起全球热烈关注，即使你不懂剪辑软件、不擅拍摄，未来也可以通过指令输入，让 Sora 帮你制作出精致的短视频！

那 Sora 到底是什么呢？又该如何使用呢？以下就让瓦特带大家一起来了解 OpenAI 旗下的影像生成 AI -「Sora」吧！

什么是 Sora OpenAI？

简单来说，Sora 就是款由 OpenAI 新开发的视频生成式 AI，用户只要于 Sora 中输入指令文字，便可一次性让其生成出长达 1 分钟的视频内容。

听到这里或许有些人会觉得：「奇怪？视频生成 AI 不是早就有了吗？ Sora 难道就比较特别吗？」

其实 Sora 相比之前任何一款视频生成 AI 来说，它真的厉害很多，不论是人物真实性、画面流畅度、动画特效呈现，各方表现都有明显进步，甚至还可以制作出带有简易故事性的短影音。

▉ Sora 运作原理与应用

Sora 之所以能比其他影像生成式 AI 更厉害，这点可从其运作原理来理解，通常我们使用的图像生成 AI，比如说 Midjourney、Imagen、DALL· E 3 等等，基本上都是以 Diffusion Models 这项扩散模型进行图像训练与生成，而 Diffusion Models 生成原理主要是先从一团噪声开始，AI 会依据指令逐格逐格补上作画细节; 然而 Diffusion Models 并无法理解事物的前因后果，虽然可以生成出接近完美的静态图，但用于连续性的视频生成上，就会漏洞百出，出现像是「威尔史密斯吃面」这类的奇怪 AI 生成影像。

不过 Sora 就不一样了。根据 OpenAI 的描述，Sora 采用的是一种名为「Diffusion transformer」模型，不仅具备 Diffusion 可将自然语言转换视觉表现（图像、影像）的能力，更是兼备类似于 ChatGPT 理解力，可针对画面与时间连续性进行演算，让影像呈现更加合理。

▼Sora 可将可视化数据进行转换

Sora 的诞生可能会让不少从事电影拍摄、广告制作、YT 影音工作者感到畏惧，深怕其强大的影像生成技术会让他们丢了饭碗，但其实也不一定，依照现有信息，目前 Sora 主要以 1 分钟左右的短视频制作为主，再加上它依旧存在些缺点（后续会详细论述），给瓦特的感觉较偏向辅助型工具，并无法替代大多数的影音创作者，比如说 YTr，用户并无法仅靠 Sora 就制作出一个逻辑架构严密、内容有条有理的 10 分钟视频; 但却可以用 Sora 来生成视频中说明性或解释用的素材，不再只有网络上免费或付费素材可用，既可丰富视频内容，还能省下部分制作时间。

除了上述YTr案例外，类似手法也可应用其他视频制作上，像是网红社群影音、厂商短广告、教职员教程视频等等，让不擅于拍摄视频的创作者有其他管道可将自己的创意、想法影像化。

应用（1）：利用文字脚本建构 1 分钟短片，比如广告、预告片、教育短片等等。
应用（2）：更多的视频素材可供选择，可用来制作说明素材、特效等等，增添视频丰富性。
应用（3）：社群媒体建构，可制作 FB、IG 等社群平台上的短影音，像是旅游日记、搞笑影像、个性化短片等等。

▼Sora 可应用于各类影像制作，协助创作者（示意图）

▉ Sora 生成影像与真实影像比较

虽然 Sora 于影像生成上有很大的突破性，但 Sora 所生成的影像与真实影像还是略有差异性，至于差异性有哪些呢？先不谈 AI 生成上可能会有的不合理或不自然动作，即使是没有明显瑕疵的 Sora 生成图像，相比于真实影像，两者间依旧有肉眼可见的差异性。

依瓦特个人主观感受来说，瓦特认为 Sora 生成影像对比真实影像有以下几点特色：

特色（1）、过于完美
就以下方「人眼」影像来说明， Sora 生成的人眼影像虽然动作自然，并渲染脸部中的毛孔、皮纹等细节，但相对于真实影像来说，Sora 生成影缺乏油光、血丝、痘疤等正常人常有的缺陷，过于完美降低了视频的真实性。

特色（2）、电影感、游戏感较为突出
Sora 影像加入了不少电影或动画才有的戏剧感，像是光影呈现、运镜风格等等，再加上先前所提画面过于完美，有时候反而让人觉得比起真实影像，AI 生成影像更像加入特效感的短电影。
不过这也并非全然是缺点，或许对不少人来说，影像的戏剧张力比起真实性更加重要，这反而才是他们希望 AI 能带来的效果也说不定。

▉ Sora 生成影像有哪些缺点？

从 OpenAI 提供的官方信息与图像，Sora 所生成影像有不少瑕疵，其中比较显著的有 2 点：

缺点（1）、远景容易出错
首先第一点，Sora 远景呈现上相对不精细，如果你仔细挖掘的话，会发现 OpenAI 提供的 Sora 生成式影像不少远影都有明显瑕疵，比如说：路人走路方式不符合人体工学、广告牌文字不正确等等。

▼ Sora 远景部分容易出现瑕疵，比如说下方视频，不仅广告牌文字没有意义、左侧的白衣路人走路方式也不正常

缺点（2）、难以准确模拟复杂的物理原理
Sora 另外一项致命的问题在于无法理解事物具体的因果关系，导致 Sora 难以正确模拟复杂的物理现象，容易生成出不符合物理法则的视频，比如说：当一个人咬了一口苹果，苹果却没有出现任何咬痕。

Sora OpenAI 该如何使用？

▉ Q1、Sora 何时开放给大众使用？

目前Sora尚未开放给大众使用，仅提供给OpenAI招募的红队演练团队成员进行测试，其中也包含些视觉艺术家、制片商、设计师、电影制作人等相关领域人士，主要评估Sora潜在风险与危机，并消除极端暴力、仇恨等错误。

至于未来推出时间？目前 OpenAI 尚未公开确切消息，或许还要等待一段时间也说不定。

▉ Q2、Sora 如何生成视频？

由于 Sora 尚未正式开放，具体操作方式尚无法准确得知; 不过从 ChatGPT 等生成式 AI 的操作方是来看，没意外的话应该还是要先注册 OpenAI 帐号，之后再通过文字指令进行影像生成。（备注：待 Sora 推出后，本段会进一步更新）

推测步骤：注册或登入 OpenAI 帐号 → 输入相关指令 → 点击确认完成视频生成。

总结、Sora 未来可能带来的风险？

Sora之所以要进行严格的评估，主要与Sora的潜在风险有很大的关系，Sora作为一款AI生成工具，方便是很方便，但它衍生的潜在危险也可能严重影响现代社会，尤其是以下2点可能最为明显。

部分产业可能受到挑战
假信息乱象更为严重

▉ 潜在危机（1）、部分产业可能受到挑战

虽然 Sora 所生成的视频并不完善、瑕疵也不少，像是上述提到的「远景问题」、「物理现象不准确」等等，都是值得改进的项目。依现阶段来观察，Sora 对于电影、电视、YTr、新闻媒体等影视相关产业，造成的冲击可能并不会很大; 但广告公司就不好说了。

由于 Sora 可以快速生成出 1 分钟长度的视频，再加上普罗大众对于广告要求并不会像电影、电视节目那般严格，只要有足够的创意发想，即使是 AI 生成的广告也可以打动人心，这情况可能会使部分预算受限的品牌主改用 Sora 来自行制作广告，而非请广告商负责，不仅能节省视频制作、模特儿聘请等费用，制作上也更加没有难度，对于中小资本的广告商还说无疑是一大挑战。

▼ 相比于电影产业，广告产业或许受到的冲击会更加明显

▉ 潜在危机（2）、假信息乱象更为严重

另一项更大的问题则在于「假资讯乱象」，有心人士可藉由 Sora 制作假新闻、假消息，比如说刻意抹黑不喜欢的政治人物影响选情; 或是挑拨族群对立制作社会对立，这些问题都是很有可能发生的。

听到这里，可能有些人会问瓦特：「Sora 生成视频不是与真实视频有很大的差异吗？人真的有那么容易被骗吗？」

其实这还真的有可能，通常我们人类在理解信息时会以「懒惰脑」与「认真脑」两种不同方式来接收，其中「懒惰脑」又是我们最常、最方便接收信息的方式，包含滑手机、浏览社群、阅读网络新闻等等，基本上我们大多不会 100% 投入高专注度于上方，仅会以最简单的方式快速理解，这就有可能导致我们无法于第一时间去区别该影像是否真实，也无法辨别内容的正确性，导致误信的机率大幅度提高。

另外，Sora 视频制作门槛又很低，不需要会剪片、不需要会摄影，这几乎使人人都能成为视频创作者，包含 IG、FB、X 在内，可以预期 Sora 开放后，很快各大社群就会被大量的 AI 视频占据，进而衍生另一种 AI 诈骗模式。

▼ Sora 可能会使假新闻更容易生成，导致假信息乱更严重