降维式打击！像素级拆解文生视频大模型Sora

热评离家出走的帆高

现在还仅仅是测试版，后面不断迭代更新效果肯定会越来越好，牛啊

降维式打击！像素级拆解文生视频大模型Sora

Openai 发布了它的文生视频大模型 Sora。

终于 Openai 也加入了 AI 视频的战争，在此之前 Runway 和一众 AI 视频公司已经奋战了一年多，SD 最近也发布了他们产品化的 AI 视频工具，midjourney 也是即将要发布文生视频功能。

但是这次 Openai 的 Sora 基本上对于之前的文生视频模型都是碾压级的，全球的 AI 视频公司都要睡不着了。

官网： https://openai.com/sora

Sora 并没有公开对大家开放测试入口，只发布了一个官方给大家展示效果。

其中的关键信息是：最长生成 60s 视频，视频镜头一致性，理解物理世界，超逼真不变形。

让我们一个个来拆解，因为无法真实体验到 Sora，以下所有的推理都基于他们在官网发布的视频。

更多AI视频干货：

AI视频生成这么强？带你快速了解发展概况和应用场景！

AI 生成视频发展到什么程度了，效果如何？

阅读文章 >

一、Sora 的颠覆性功能

1. 生成视频时长 60s

官方只发布了一个 60s 时长的视频，就是下面这个东京的街头视频。

提示词：一位时尚女性走在充满温暖霓虹灯和动画城市标牌的东京街道上。她穿着黑色皮夹克、红色长裙和黑色靴子，拎着黑色钱包。她戴着太阳镜，涂着红色口红。她走路自信又随意。街道潮湿且反光，在彩色灯光的照射下形成镜面效果。许多行人走来走去。

但是这个视频并不是一镜到底的，视频在 37s 后切了一个特写镜头。从 sora 官网上其他的 demo 时长来看，一次视频的时长大概在 10s 左右。所以 60s 多半是视频拓展和拼接的结果。并不是一次性生成的 60s。

但是即便是这样，Sora 的效果也吊打了现有的所有的视频生成模型。现有的文生视频模型的时长大部分只有 4s。并且一旦生成运动幅度大一点的，就会变形。runway 也可以拓展 4s 视频到 16s，但是基本上很少有人用这个功能，因为效果真的太差了。

而 Sora 这个 60s 的视频基本上可以展示它解决了下面几个 AI 视频技术难点：

真实物理世界逼真模拟
角色的一致性
长镜头的稳定性

2. 理解真实物理世界的运动方式

Openai 的官方说法是：Sora 能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。该模型不仅了解用户在提示中提出的要求，还了解这些东西在物理世界中的存在方式。

之前的 AI 视频工具也在运镜和运动上做了一些努力，现在看来这些努力都有点像小孩子的游戏。生成的运动方式非常的生硬，并且运动幅度无法很大，一使劲就变形，导致很多现在的 AI 片子都有点像 PPT 电影。

但是这次的 Sora 视频上的运动已经非常接近真实的运动了。

比如下面这个，无论是动作的连贯性，顺畅度，还有眼睛部分的反光都处理的很好。

提示：“动画场景的特写是一个毛茸茸的小怪物跪在一根融化的红色蜡烛旁边。艺术风格是 3D 和现实的，重点是灯光和纹理。这幅画的基调是惊奇和好奇，怪物睁大眼睛、张开嘴巴凝视着火焰。它的姿势和表情传达出一种天真和俏皮的感觉，就好像它第一次探索周围的世界一样。暖色调和戏剧性灯光的使用进一步增强了图像的舒适氛围。”

也能很好的理解各种形式的运镜，runway 的运镜是通过外部设置镜头运动来实现的，只能支持很有限的时长，但是 sora 的运动幅度和逼真程度都远远大 runway 的运镜功能。清晰度也大大提升了，但是清晰度相比之下仿佛是一个不太显眼的更新了。

提示：“美丽、白雪皑皑的东京城很繁华。镜头穿过熙熙攘攘的城市街道，跟随几个人享受美丽的雪天并在附近的摊位购物。美丽的樱花花瓣随着雪花在风中飞舞。”

3. 视频一致性

Sora 还可以在单个生成的视频中创建多个镜头，准确地保留角色和视觉风格。

现在的常见 AI 视频工作流是用 AI 生成图片，然后再用图片生成视频。还有之前 runway 出的多重笔刷功能：AI 视频可控性里程碑更新：Runway 上线多重运动笔刷其实都是在为了一致性服务，并不是大家不喜欢直接用文生视频，是文生视频的一致性真的很差。现在尚不清楚 Sora 的多镜头保持一致性是如何做到的。

提示：赛博朋克背景下机器人的生活故事。

降维式打击！像素级拆解文生视频大模型Sora

可以看到风格和机器人大体的的一致性都保持的很好，细节上只有机器人转身后背后的处理有一些不一样的地方（镜头二）。但是相对于之前还是一个巨大的进步。

他们具体怎么实现的这种超强一致性尚不可知，官网上提到这次的视频模型还是基于扩散模型，但是扩散模型如何做到这么好的效果可能需要等过段时间官方的技术论文了。

除了直接靠模型来保持一致性，基于图片生成视频和基于视频生成视频也是支持的，但是并不清楚是只支持它们的文生图片生成视频还是支持上传第三方的图片生成视频，因为 openai 也说了它们为了安全性会审查每一帧。这一切需要等他们真正的开放产品给大家用的时候了。

降维式打击！像素级拆解文生视频大模型Sora

二、Sora 的弱点

虽然 sora 已经足够惊艳，但是仍然不是全能的，以下是几个 sora 的弱点：

1. 它可能难以准确模拟复杂场景的物理原理

结合上面的介绍，这里是在复杂场景下可能难以模拟，并不是大部分时候不能模拟，这里官方给了一些案例。

提示：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。提示：考古学家在沙漠中发现了一把普通的塑料椅子，他们小心翼翼地挖掘并除尘。

弱点：在这个例子中，Sora 未能将椅子建模为刚性物体，导致物理交互不准确。

2. 可能无法理解因果关系

提示：篮球穿过篮筐然后爆炸。

弱点：不准确的物理建模和不自然的物体“变形”的例子。

3. 可能混淆提示的空间细节

比如下面这个例子，它把人物和跑步机的方向搞错了。

提示：打印一个人跑步的场景，35 毫米电影胶片。提示：打印一个人跑步的场景，35 毫米电影胶片。

弱点：sora 有时会产生身体上难以置信的动作。

4. 难以精确描述随着时间推移发生的事件

比如下面这个老奶奶吹蜡烛就没有成功。

提示：一位白发梳得整整齐齐的老奶奶站在木制餐桌上的彩色生日蛋糕后面，蛋糕上插着无数蜡烛，脸上的表情是纯粹的喜悦和幸福，眼中闪烁着幸福的光芒。她倾身向前，轻轻地吹灭蜡烛，蛋糕上有粉红色的糖霜和糖珠，蜡烛不再闪烁，祖母穿着一件饰有花卉图案的浅蓝色衬衫，几个快乐的朋友和家人坐在桌边。看到庆祝，失去焦点。该场景拍摄精美，具有电影般的效果，展示了祖母和餐厅的 3/4 视图。温暖的色调和柔和的灯光增强了情绪。

弱点：模拟对象和多个角色之间的复杂交互通常对模型来说具有挑战性，有时会导致问题的产生。