关于人工智能:文生视频Sora模型发布是否引爆AI芯片热潮

51次阅读

共计 8070 个字符,预计需要花费 21 分钟才能阅读完成。

 文生视频 Sora 模型公布,是否引爆 AI 芯片热潮    

1. 引言

在人工智能的历史长河中,每一次技术的飞跃都随同着社会生产力的微小改革。自 2015 年以来,深度学习技术的突破性停顿,尤其是在自然语言解决、图像识别和机器学习等畛域的胜利利用,曾经彻底改变了咱们对机器智能的意识和期待。这些技术的提高不仅仅是实践上的冲破,更是理论利用的反动,它们正在逐渐渗透到咱们生存的方方面面,从主动驾驶到智能家居,从数据分析到内容创作。
在这样的背景下,OPENAI 最近公布的 Sora 模型无疑是又一次令人瞩目的里程碑。Sora 模型基于扩散模型,可能将简略的文本形容转换成为高质量的视频内容。这种能力不仅仅是技术上的翻新,更是对视频制作、媒体流传乃至整个娱乐产业的挑战和时机。

2. 后方正告,Sora 来袭!

让咱们先来感受一下 Sora 的魔力

一位戴着尖顶帽,身披绣有红色星星的蓝色长袍的巫师正在施法,他的一只手射出闪电,另一只手中拿着一本新书。

在一间领有电影级灯光设置的充斥托斯卡纳农村风情的厨房里,一位善于利用社交媒体的奶奶,正在教你制作美味的自制诺奇面。

咱们将带你进行一次将来城市的街头巡览,在这里,高科技与天然谐和共处,展现出一种独特的赛博朋克格调。
这座城市干净无瑕,到处可见的是先进的未来式有轨电车、壮丽的喷泉、巨型的全息投影以及到处巡逻的机器人。
设想一下,一个来自将来的人类向导正率领一群好奇的外星访客,向他们展现人类极致创造力的结晶——这座无可比拟、充斥魅力的将来城市。

此外,Sora 还能在同一视频中设计出多个镜头,同时放弃角色和视觉格调的一致性。

要晓得,以前的 AI 视频,都单镜头生成的。

Prompt: A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.
这是一部电影预告片,讲述了 30 岁的太空人戴着红色羊毛针织摩托车头盔的冒险经验,蓝天,盐沙漠,电影格调,用 35 毫米胶片拍摄,色彩鲜艳。

Prompt: Beautiful, snowy Tokyo city is bustling. The camera moves through the bustling city street, following several people enjoying the beautiful snowy weather and shopping at nearby stalls. Gorgeous sakura petals are flying through the wind along with snowflakes.
「雪后的东京熙熙攘攘。镜头穿过忙碌的街道,跟随着几位享受着漂亮雪景和在左近摊位购物的人们。漂亮的樱花瓣随同着雪花在风中飘舞。」

Sora 依据这个提醒所出现的,便是东京在冬日里梦幻的一幕。

无人机的镜头追随一对悠闲漫步的情侣穿梭在街道上,左侧是车辆在河岸路上行驶的声音,右侧是顾客在一排小店之间穿梭的现象。

Prompt: Animated scene features a close-up of a short fluffy monster kneeling beside a melting red candle. The art style is 3D and realistic, with a focus on lighting and texture. The mood of the painting is one of wonder and curiosity, as the monster gazes at the flame with wide eyes and open mouth. Its pose and expression convey a sense of innocence and playfulness, as if it is exploring the world around it for the first time. The use of warm colors and dramatic lighting further enhances the cozy atmosphere of the image.
动画场景特写了一个毛茸茸的矮个子怪物跪在消融的红烛旁。美术格调是 3D 和事实的,重点是照明和纹理。这幅画的氛围是一种惊奇和好奇,因为怪物睁大眼睛,张开嘴巴凝视着火焰。它的姿态和表情传播了一种天真和顽皮的感觉,如同它是第一次摸索四周的世界。寒色和戏剧性灯光的应用进一步加强了图像的舒服气氛。

Prompt: A gorgeously rendered papercraft world of a coral reef, rife with colorful fish and sea creatures.
一个富丽的珊瑚礁纸工艺品世界,到处都是五光十色的鱼和海洋生物。

Prompt: Reflections in the window of a train traveling through the Tokyo suburbs.
一列火车穿梭东京市区时,窗户上反射出的迷人现象。

Prompt: Several giant wooly mammoths approach treading through a snowy meadow, their long wooly fur lightly blows in the wind as they walk, snow covered trees and dramatic snow capped mountains in the distance, mid afternoon light with wispy clouds and a sun high in the distance creates a warm glow, the low camera view is stunning capturing the large furry mammal with beautiful photography, depth of field.
在雪地草原上,几只微小的羊毛猛犸象缓缓前行,它们长长的毛皮在大风中微微飘扬。远处是雪笼罩的树木和宏伟的雪山,午后的阳光穿透薄云,给这个场景削减了一抹和煦的荣耀。低角度的拍摄令这些宏大的毛茸茸动物显得尤为壮观,景深成果引人入胜。

Prompt: Drone view of waves crashing against the rugged cliffs along Big Sur’s garay point beach. The crashing blue waters create white-tipped waves, while the golden light of the setting sun illuminates the rocky shore. A small island with a lighthouse sits in the distance, and green shrubbery covers the cliff’s edge. The steep drop from the road down to the beach is a dramatic feat, with the cliff’s edges jutting out over the sea. This is a view that captures the raw beauty of the coast and the rugged landscape of the Pacific Coast Highway.
无人机从地面鸟瞰大苏尔加雷角海滩左近的起伏悬崖,海浪冲击着岩石,造成红色的浪尖,落日的金色光芒照亮了岩石海岸。远处有一个小岛上立着灯塔,悬崖边缘笼罩着绿色植被。从路线到海滩的平缓降落和悬崖边缘凸出的现象,展示了海岸的原始漂亮和太平洋海岸公路的起伏风光。

Prompt: Aerial view of Santorini during the blue hour, showcasing the stunning architecture of white Cycladic buildings with blue domes. The caldera views are breathtaking, and the lighting creates a beautiful, serene atmosphere.
蓝色时刻下的圣托里尼岛航拍视图,展示了红色基克拉迪修建和蓝色圆顶的绝美修建。火山口的风景令人叹为观止,灯光营造出一种漂亮而平静的气氛。

Prompt: A young man at his 20s is sitting on a piece of cloud in the sky, reading a book.
一位 20 多岁的年轻人坐在天空中的一朵云上,沉迷在书本中。

Prompt: A litter of golden retriever puppies playing in the snow. Their heads pop out of the snow, covered in.
一群活跃的金毛寻回犬小狗在银白色的雪地上嬉戏,它们好奇的小脑袋时而从雪地中探出,被雪花装点,萌态十足。

Prompt: The camera directly faces colorful buildings in burano italy. An adorable dalmation looks through a window on a building on the ground floor. Many people are walking and cycling along the canal streets in front of the buildings.
在意大利布拉诺一排排娇艳的黑白修建中,一只可恶的斑点狗正通过窗户好奇地望向里面。与此同时,街道上人来人往,有的步行,有的骑行。

Prompt: Tiltshift of a construction site filled with workers, equipment, and heavy machinery.
一幅充斥工人、设施和重型机械的建筑工地的移轴摄影。

Prompt: A petri dish with a bamboo forest growing within it that has tiny red pandas running around
在一个培养皿中,成长着一片竹林,其中小熊猫们在欢快地奔跑。

Prompt: A cartoon kangaroo disco dances.
一只卡通袋鼠正在迪斯科舞池中跳舞。

Prompt: Photorealistic closeup video of two pirate ships battling each other as they sail inside a cup of coffee.
在一杯咖啡中,两艘海盗船开展了强烈的战斗,超写实的远景视频。

当然也有一些诡异的输入。

好在,它还并不完满。

否则,虚构和事实的界线,还能区分得清吗?

3. 浅析 Sora 的技术亮点

在 Open AI 给出的技术报告【1】中,笔者挖出了两点 Sora 的技术要点,分享如下:
1- 视觉数据基建 —- 时空碎片(Spacetime Patches)
以 chatGPT 为例,大语言模型首先通过 Embedding 将人类语言“编码”,而后通过注意力机制 Attention 提取各种丰盛的常识和构造,以加权的模式学习并建设“关键词”之间的分割,最初再“反编码”,以人类的语言输入返回后果。

语言模型中构建关键词分割

与 LLM-NLP 思路统一,Sora 的第一步是针对视觉数据的建模:首先将视频压缩到一个低维的潜在空间,而后将其合成为时空碎片,这些“碎片”的汇合作为 Sora 吃进的“语料”。这里的“碎片”-Patches,等同于语言模型中的 Tokens,它帮忙 Sora 取得了自然语言解决个性。

视频素材合成为时空碎片

进一步,Sora 团队构建了“智能字幕“模型 DALL.E3,其建设起了 Patches 到 Tokens 之间的分割,实现了文本与视频的互译。使得 GPT 丰盛的文本数据被无效的利用于 Sora 的训练,这极大地促成了 Sora 的诞生。
其次,因为 Patches 高度可扩大的示意个性,使得 Sora 可能利用于宽泛的图像和视频编辑工作(图像就是厚度为 1 的视频,分辨率、形态等属性变换都能够体现为 Patches 的排列组合)。
2- 反向学习 —- 扩散模型(Diffusion Transformers–DiT)【2】
扩散模型是一种深度生成模型,其根本思维就是通过一个可逆的过程,将结构化数据(如图片)逐渐转化为无构造的噪声数据,而后再逆向这个过程,从噪声中复原出原始数据或生成新的数据实例。简而言之,就是让模型从图像的含糊还原中学习图像生成。

而 DiT 绝对于传统的扩散模型做出了如下改良:
 应用 Transformer 替换 U -Net,使得模型可能更好的解决长距离依赖性;
 验证了 Transformer 架构在扩散模型上的可扩展性,随着模型计算复杂度的回升,生成品质稳步晋升。
 应用 Latent diffusion 取代 pixel diffusion,升高了模型计算量。

扩散模型 DiT

在 Sora 的技术报告中,OpenAI 称 Sora 摒弃了“其余文生视频模型调整视频大小、裁剪或修剪到规范大小的通常做法”,以可变时长、分辨率与长宽比来训练视频生成,从而取得了重要劣势。
从报告中展现的成绩来看,Sora 在视频生成上展现出了弱小的涌现能力:人和风物在三维空间挪动的一致性;长程工夫相关性与对象持久性,如事物被遮挡后重现;事物与周边世界的互动性等等。

4. Not for play, But change world!

OpenAI 在 Sora 的技术报告中毫不吝惜夸赞的言词,并对 Sora 的后劲充斥期待。他们认为继续扩充视频模型的规模,将能够用来模仿整个物理和数字世界。这一愿景深深地震撼了笔者自己!

OpenAI 的巨大指标

随同着笔者对知乎、csdn、facebook 的疯狂查阅,有另一种声音愈发强烈。本来笔者只是诧异于 Sora 视频的丝滑,清晰与文本生成的繁难。而更多的大佬,纷纷指出,Sora 视频毫无违和感,没错!就是毫无违和感,它所展示的光影成果与碰撞遮挡,太实在了!Sora 对于图像与视频的解决仅仅是其能力的表象,假相是,Sora 是真的在了解地球物理世界的法则,而且获得了微小的停顿。

将来已来,只是尚未风行

“Sora 是一个数据驱动的物理引擎!“NVIDIA 钻研科学家 Jim Fan 在 Twitter 上发文。
“Sora 不讲武德,一句话就有间断的视频,覆灭吧,计算机图形学!覆灭吧,游戏引擎!“计算机图形学学者谭剑如是说。
“去他喵的物理公式,宇宙的终极是概率!“
……
红衣教主周鸿祎曾示意:一旦人工智能接上摄像头,对世界的了解将远远超过文字学习,一幅图胜过一言半语,而视频传递的信息量又远远超过一幅图,这就离 AGI(通用人工智能)真的不远了,不是 10 年、20 年的问题,可能一两年很快就能够实现。
而当下,Sora 冲破了,它实现了机器对这个世界的感知、察看和交互的能力,也就是说真正的给人工智能补上了眼睛。不难想象,在 AI 如此尽力的倒退下,元宇宙般的梦幻世界好像近在眉睫。

AI 在疯狂吸取人类文明与主观世界的常识

5. Sora 的老本与 OpenAI 的 7 万亿美金豪赌

“很少有人提到 Sora 视频生成的老本。用 Sora 生成 1 分钟的视频预计须要几十美金,比 RunwayML 的 Gen2(大概一分钟 10 美金)还贵,而很多人会选择性的疏忽老本。比方 GPT-4 反对 128K 上下文的时候,很少有人提到用一次 128K 上下文须要 1.28 美金。明天 Gemini 1.5 说反对 10M 上下文了,却并没有人晓得这 10M 上下文的老本是多少。视频生成如果老本高达一分钟几十美金,那就只能受限于业余的影片和游戏制作人,没法用来生成抖音短视频。这就是为什么 OpenAI 要搞 7 万亿美金来造芯片。很多人感觉 Sam Altman 疯了,但我感觉他看到了 AI 真正的瓶颈——算力。“—- 知乎作者 - 李博杰
这样的判断很快迎来了资本市场的认证。继 2 月 15 日 Sora 爆炸问世后一周,全世界的投资人,都把眼光投向了寰球芯片巨头——英伟达。截至当地工夫 2 月 22 日开盘,英伟达报 785.38 美元,涨 16.4%,创历史新高,市值迫近 2 万亿美元,成为微软、苹果之后第三高。其市值一夜增长 2733 亿美元(约合人民币 2 万亿元)。相当于减少了一整个 Netflix 或一整个 Adobe,约等于一个茅台三个宁德时代!皮衣刀客黄仁勋身家超过中国首富、农夫山泉创始人钟睒睒,升至寰球富豪榜第 21 位。
不得不说“淘金的还没腾飞,但卖铲子的倒是真的腾飞了,哈哈哈哈!”

黄仁勋瞭望将来

6. 算力,将来在何方?

正所谓:哪里有需要,哪里就有市场!Sora 的火爆与 NVIDIA 的胜利又再一次印证了人工智能的影响力及其倒退的紧迫性,这促使着“国产算力代替”又再一次回到了倒退舞台的核心。过来的工夫里,在中美博弈,芯片法案的压力下,催生出了一系列 AI 芯片独角兽,大家也都在各自的技术路线上奋起直追。这包含全志科技多目异构视觉芯片“V853”,云天励飞多芯粒集成 CV 减速单元“DeepEdge10”,清华大学的智能驾驶计算芯片“惊蛰 R1”,时识科技“感算一体”动静视觉 SoC“Speck”,以及知存科技的“存算一体”AI 视觉芯片“WTM8 系列”。与此同时,芯片架构设计、芯片验证以及编译工具链开发等 AI 芯片岗也引发了新一轮的人才需求热潮。
值得一提的是,在新一轮算力攻坚赛中,冲破传统冯·诺依曼架构的范式摸索成为次要方向之一。而“存算一体”架构突破了存算拆散的壁垒,缩小了数据的搬运,它就如同“在家办公”的新型工作模式,打消了数据“往返通勤“的能量消耗、时间延迟,并且节约了“办公场合”的经营老本,因此具备高能效比。加上“存算一体”架构对于工艺制程的“弱依赖”性(14nm 展示 4nm 数字电路体现性能),使其成为了 AI 算力的重要倒退方向。

Intel Lab 的大规模存算核拓扑规定【3】

从存算一体技术倒退来看:
规模正在几何扩增。上图是 2024 年英特尔实验室新鲜出炉的存算一体架构大规模扩大拓扑图,能够清晰的看到 64 核拓扑,笔者印象 2023 年底的时候,4 核才刚进入应用。
精度正在更进一步。从 4 比特到 8 比特到 10 比特。最新消息,AI 芯片公司 TetraMem 及其合作伙伴,继 2023 年 3 月冲破 11 比特后,于往年 2 月 23 日又在《迷信》上发表重大突破:以忆阻器为外围的全新架构,冲破实现任意高精度模拟计算【4】。
依照存算架构绝对于传统数字电路 10 倍的能效体现,只能说其作为超大模型的反对后劲在逐步被开掘,属于它的时代行将到来。

7. Finally!

能够预感的是,AI 的成长会以不堪设想的速度多向倒退,AI 的成长基石:数据、算力、能源将会成为社会倒退的重要引擎。笔者在此热烈邀请大家独特关注,独特学习,独特迎接美妙的今天!

援用:
【1】Technical report of Sora: Video generation models as world simulators (openai.com)
【2】Scalable Diffusion Models with Transformers:https://doi.org/10.48550/arXiv.2212.09748
【3】Towards Joint Modeling of Dialogue Response and Speech Synthesis based on Large Language Model:https://doi.org/10.48550/arXiv.2309.11000
【4】Programming memristor arrays with arbitrarily high precision for analog computing:https://www.science.org/doi/10.1126/science.adi9405
【5】另外,找到了一篇 Sora 的技术详解,有趣味的敌人请见:最强文生视频模型 SORA 技术路线解读 (yuque.com)

阐明:本文来自 CSDN 存内社区,原文作者:Hundred++
https://bbs.csdn.net/topics/618126472

正文完
 0