关于后端:SoraPika文生视频模型对比

64次阅读

共计 1016 个字符，预计需要花费 3 分钟才能阅读完成。

OpenAI 重磅公布文生视频模型 Sora，Sora 在视频时长与视觉效果等方面相较于 Pika、Runway 等支流文生视频工具有了极大幅度的晋升。具体来看，Sora 生成的视频具备超长时长、世界模型、多镜头切换的三大个性：

1）超长时长
Sora 可生成长达一分钟的高清视频，而此前 Pika、Runway 等模型生成的视频时长仅在 20s 以内，在视频时长大幅晋升的同时，视频具备连贯性，即便人物和其余场景元素被临时遮挡或来到视线，仍能放弃一致性

2）世界模型
Sora 不仅可能深刻了解用户提醒，还学会了物理世界的局部法则，比方一个人吃汉堡后会留下咬痕、火车车窗上会产生真切的倒影，而 Runway 等模型的拟真水平则绝对较弱;

3）多镜头切换
Sora 可在单个视频中设计出多个镜头，并且能在多角度的镜头切换中，实现角色和视觉格调的一致性，而 Runway 等绝大部分模型只能生成单镜头视频。

相较于此前的视频生成模型，Sora 在底层模型和算法上的翻新点次要体现在以下三个方面:

1）采纳 Transformer 架构的扩散模型
不同于 Runway Gen1、Stable Video Diffusion 等扩散模型次要采纳经典的 U-Net 架构，Sora 用 Transformer 架构替换 U-Net 架构，大幅晋升模型扩展性;

2）训练视频数据放弃原始大小
不同于其余视频生成模型通常事后将视频调整、裁剪或修剪为规范大小，例如裁剪为分辨率为 256×256 的 4s 视频，Sora 在原始大小的数据上进行训练，一方面数据采样更灵便，能够对宽屏 1920×1080p 视频、垂直 1080×1920 视频以及介于两者之间的所有视频进行采样，这使 Sora 能够间接以原始宽高比为不同设施创立内容，另一方面能够改善构图和取景，在通过方形裁剪后的视频上训练的模型有时主体仅局部可见，而 Sora 生成的视频取景失去了明显改善;

3）为训练视频生成具体的文字描述
其余文生视频模型通常在大型文本 - 视频对数据集上进行训练，而 Sora 采纳了 DALL·E3 和 GPT 的研究成果，通过为视频训练数据生成或补充具体的字幕形容，晋升训练成果，使模型预测更精确。

目前 Sora 仍存在肯定局限性，包含无奈模仿简单场景的物理个性、难以了解特定场景下的因果关系、误会用户提醒中的空间细节信息，有待于后续的进一步欠缺和晋升。目前 Sora 模型已向局部专家凋谢，以评估潜在的危险，同时也正在向局部设计师、电影制作人、视觉艺术家等授予拜访权限，以取得应用反馈。

正文完