共计 1016 个字符,预计需要花费 3 分钟才能阅读完成。
OpenAI 重磅公布文生视频模型 Sora,Sora 在视频时长与视觉效果等方面相较于 Pika、Runway 等支流文生视频工具有了极大幅度的晋升。具体来看,Sora 生成的视频具备超长时长、世界模型、多镜头切换的三大个性:
1)超长时长
Sora 可生成长达一分钟的高清视频,而此前 Pika、Runway 等模 型生成的视频时长仅在 20s 以内,在视频时长大幅晋升的同时,视频具备连贯性,即便人物和其余场景元素被临时遮挡或来到视线,仍能放弃一致性
2)世界模型
Sora 不仅可能深刻了解用户提醒,还学会了物理世界的局部法则,比方一个人吃汉堡后会留下咬痕、火车车窗上会产生真切的倒影,而 Runway 等模型的拟真水平则绝对较弱;
3)多镜头切换
Sora 可在单个视频中设计出多个镜头,并且能在多角度的镜头切换中,实现角色和视觉格调的一致性,而 Runway 等绝大部分模型只能生成单镜头视频。
相较于此前的视频生成模型,Sora 在底层模型和算法上的翻新点次要体现在以下三个方面:
1)采纳 Transformer 架构的扩散模型
不同于 Runway Gen1、Stable Video Diffusion 等扩散模型次要采纳经典的 U-Net 架构,Sora 用 Transformer 架构替 换 U-Net 架构,大幅晋升模型扩展性;
2)训练视频数据放弃原始大小
不同于其余视频生成模型通常事后将视频调整、裁剪或修剪为规范大小,例如裁剪为分辨率为 256×256 的 4s 视频,Sora 在原 始大小的数据上进行训练,一方面数据采样更灵便,能够对宽屏 1920×1080p 视频、垂直 1080×1920 视频以及介于两者之间的所有视频进行采样,这使 Sora 能够间接以原始宽高比为不同设施创立内容,另一方面能够改善构图和取景,在 通过方形裁剪后的视频上训练的模型有时主体仅局部可见,而 Sora 生成的视频 取景失去了明显改善;
3)为训练视频生成具体的文字描述
其余文生视频模型通常在大型文本 - 视频对 数据集上进行训练,而 Sora 采纳了 DALL·E3 和 GPT 的研究成果,通过为视频 训练数据生成或补充具体的字幕形容,晋升训练成果,使模型预测更精确。
目前 Sora 仍存在肯定局限性,包含无奈模仿简单场景的物理个性、难以了解特 定场景下的因果关系、误会用户提醒中的空间细节信息,有待于后续的进一步 欠缺和晋升。目前 Sora 模型已向局部专家凋谢,以评估潜在的危险,同时也正 在向局部设计师、电影制作人、视觉艺术家等授予拜访权限,以取得应用反馈。