共计 6389 个字符,预计需要花费 16 分钟才能阅读完成。
从 1948 年的香农定律,到音视频的明天。
IMMENSE、36 氪|作者
北京工夫 2 月 28 日凌晨,FIFA 年度颁奖典礼在巴黎举办。梅西荣膺年度最佳球员,斯卡洛尼入选年度最佳男足主帅,马丁内斯荣获年度最佳男足门将!阿根廷因而成为 FIFA 史上首个在同一届颁奖礼上博得三个最佳评比的国家。毫无疑问,2022 卡塔尔世界杯的冠军奖杯为此次评比削减了不少份量。
回望卡塔尔世界杯赛场,观众印象最深的不仅是“诸神傍晚”的老将谢幕、球王梅西的终极加冕,还有无数次比赛结果的逆转,而这些惊天大冷门的“参与者”——VAR,视频助理裁判(Video Assistant Referee)吸引了有数人的眼光。
在小组赛第一轮中,VAR 将阿根廷的 3 个进球全副判为有效,以致阿根廷 1:2 败于沙特阿拉伯,爆出本次世界杯最大冷门,差点在小组赛中淘汰了本届冠军阿根廷。VAR 的背地,是 12 台鹰眼摄像机,捕获球员身材 29 个关键点,每秒 50 次紧密追踪,并将这些 音视频数据实时发送至云端进行解决。
在云计算时代,随着音视频技术的飞速发展,还有更多像 VAR 这样的新兴利用,既改写着绿茵场上的比赛结果,也扭转了咱们生存的方方面面。
01 从黑白小电视到超清 4K 直播
在世界杯举办的近百年历史上,大多数人能够坐在家中,实时观看赛事直播的历史,只是近几十年的事件。
因为摄影摄像、音视频编解码、信号传输等种种技术限度,始终到 1954 年的瑞士世界杯,人类才在历史上第一次通过电视观看世界杯较量。在此之前,观众只能通过报纸、播送、甚至口口相传能力得悉赛事后果。
央视第一次转播世界杯则是 1978 年的阿根廷世界杯。然而很少有人晓得,彼时,还叫做“北京电视台”的央视,是由足球评论员宋世雄在香港的一间小酒店房间里实现了 78 年阿根廷世界杯的半决赛和总决赛赛事转播。
几十个球迷围着一台 9 寸黑白电视,如饥似渴地期待着进球后果,成了那个时代最具特色的一道风光。
那个时候,电视还是个稀缺物件,球迷们被迫盯着屏幕上含糊得连球员五官都看不清楚的超低分辨率画面,忍受着断断续续、时常“雪花”的信号传输。
几十年的人们大略很难设想,2023 年的明天,通过云技术解决的较量转播曾经高达 8K、60 帧,延时缩短至 1 秒,运动员们纤毫毕现的赛事画面成为了日常,网络传输与边缘云技术的倒退,更是让寰球亿万观众可能轻松地通过电脑、手机、平板等多种设施晦涩无阻地观看赛事。
兴许更难设想的是,明天,云端解决的 AI 语音成为了赛事的播报员、视频技术让 VAR 成为了赛事后果的改判者,已经只存在于科幻小说里的“VR 看球”更是走进了事实。
正是云计算技术的继续提高,让人类可能一直冲破音视频技术的边界,发明出更多超过想象力的全新体验。
02「4.56 亿」背地的技术奇观
除了世界杯赛场上的种种利用外,各类音视频技术的翻新利用,也正扭转着咱们生存的方方面面。
首先,直播、短视频毫无疑问曾经成为了当代生存的重要组成部分。
依据中国互联网络信息中心数据,截至 2022 年 6 月,我国网民规模为 10.51 亿,其中短视频用户规模曾经达到了 9.62 亿,占网民整体的 91.5%。
而依据《中国网络表演(直播)行业倒退报告(2021-2022)》数据,截至 2021 年 12 月,我国网络表演(直播)行业主播账号累计达到近 1.4 亿个,行业市场规模达 1844.42 亿元。
十年之前,仅用一台手机就能面向成千盈百、甚至上亿人次的晦涩无卡顿直播,几乎是天方夜谭。过后,视频压缩、编解码、网络传输等诸多技术都重大限度了网络直播的倒退,人们大多数还是从电视频道上观看各种大型直播,领有低廉设施与卫星转播零碎的电视台成为了惟一可能驾驭“亿”这种量级的平台机构。
然而,十年之后的明天,在云、网、边、端技术的独特倒退之下,直播从大屏走向小屏,2022 年天猫双 11 预售首日,李佳琦一场直播的观看量就达到了惊人的 4.56 亿人次,同时接入观看的节点数高达千万级以上。
一方面,如此惊人的高并发流量对网络造成了微小的压力。如何保障画面 清晰、晦涩、不卡顿 成为了工程师们的最大挑战之一。在直播衰亡初期,“卡的宝子退出来重进一下”简直成了各大平台主播的日常用语。
另一方面,跟传统直播技术的单向流传不同,直播电商对实时互动更高,几秒钟的延时侵害的不仅仅是用户体验,还会间接影响交易达成——这可是商家的命根子。
为了升高电商直播端到端的延时,并在超高并发状况下仍旧牢靠,阿里云与淘宝技术独特攻坚,将传统的 CDN 内容散发网络进行革新,打造了一张寰球实时传输网 GRTN(Global Real-Time Transport Network)。而基于这张网的超低延时直播技术 RTS(Real-Time Streaming)更是让淘宝直播可能做到 千万级大规模并发下,将延时管制在 1s 以内,做到真正意义上的低延时和沉迷式互动。
淘宝直播的技术升级既是一个新时代的典型利用,又是音视频行业技术倒退的一个缩影。
回望过来十年间,咱们能够看到音视频行业倒退的三大趋势:
1)超感体验
毫无疑问,人类对感触与体验的一直谋求,正是驱动音视频行业迅猛发展的最大能源。
视觉方面,更快、更清晰、更细腻、更多彩、更晦涩的观影体验始终是音视频大厦的根基。产业历经十年从 1080P、走到 4K、再走到了 8K 画质,传输数据量越来越大,每一代编码的降级复杂度以百倍计算,视频延时却由 30 秒急剧下降到 10 秒、1 秒、甚至目前达到的百毫秒以内。
听觉方面,21 世纪以来,音频编码技术突飞猛进,英国之宝的联结创始人 Bob Stuart 所开发出的 MQA 高格局 PCM 无损解决和压缩技术让网络流媒体高音频传输成为事实。杜比全景声等技术所笼罩的终端产品越来越广,手机、电脑、平板、电视、音箱、游戏主机……足以以假乱真的超感音频体验让每一个人身临其境。与此同时,DTS 也推出下一代音效技术 DTS:X,试图凭借这个新一代凋谢的沉迷式音编解码规范与基于声音对象的多维空间音频技术与老对手杜比平分秋色。
“2009 年,你拿着最潮流的诺基亚手机,应用着刚刚遍及的 3G 网络,关上 DVD,与家人看一场 1080P 分辨率的经典大片,这就是幸福。”明天,你在地铁上关上 5G 手机,一场杜比全景声 4K 超清音视频盛宴就在眼前。
以体育赛事为例,曾几何时,观众幻想着像“上帝视角”一样对运动员 多方位、多角度、自在观看。
北京冬奥期间,阿里云与优酷联结,通过在体育场馆内盘绕部署多台摄像机,将现场采集的多路视频内容编排整合后回传至核心云或边缘节点,通过核心云或边缘节点部署的算力,将视频流做 3D 渲染重建,再将渲染后的视频流实时传送给观众。此时,观众就能够像操控游戏角色一样,平面 、 自在 、360 度 地观看运动员赛事的精彩霎时,将直播体验施展到极致,赋能视频行业冲破原有业务边界。
2)极致老本
技术的遍及素来都离不开老本的升高。许多前沿音视频技术之所以鲜为人知,不是因为没有创造进去,而是因为它真的——太贵了。
举个例子,2018 年,央视发表开始投建三阶段 4K 推动打算,其我的项目总投资 85.5 亿元,建成后每年运行保护及节目传输投入 10.94 亿元,每年 4K 节目制作投入约 150 亿元(不含人员等经费)。商业需要驱动视频技术极致化发展,也燃动着对老本的极致化谋求,而边缘云技术的倒退则为这一难题提供理解法。
以后,90% 的直播业务已下沉至边缘云 ,基于宽泛笼罩的节点就近散布,边缘云将能力拓延至“最初一公里”, 在升高传输与算力延时根底上,以更低的综合老本推动着用户的体验一直降级。
想要在保障观看体验的前提下降低成本,一种从人眼视觉模型登程,以“主观体验最好”为指标的编码和传输方式——窄带高清能够实现两者的均衡。
原始视频的数据十分微小,须要进行编码与压缩能力进行存储与传输。从某种程度来说,编解码技术的倒退正是音视频技术的倒退。传统云端转码是在用户端造成一个原始视频,通过编码之后以视频流的模式传到服务端,在服务端解码之后做转码,而后再编码通过 CDN 散发进来。
而窄带高清技术的“窄带”是指让视频通过窄带高清转码之后,对带宽的需要变得更小。同时,“高清”是指通过转码后的画质依然可能放弃高清、丰盛的视觉体验。
此外,在算力方面,视频编码与视频解决均为计算密集型场景,如何解决视频云赛道的算力困局,让高压缩率的视频编码算法更加普惠?
更弱小、更高效、更多样的云端音视频解决能力离不开底层算力的反对,近年来,云计算厂商纷纷开启了多样的技术架构降级。首先,是依靠老牌厂商,一直进行硬件降级。
例如英特尔 Data Center GPU Flex 解决方案,内置了开源 AV1 编解码器,显著进步了压缩效率,与 AVC 和 HEVC 相比使带宽减少 30% 以上,有助于大幅升高总领有老本,在不影响视频品质的状况下减少了云服务器反对的视频流密度。
另外一条,即是自研。作为国内云计算产业的领头玩家,阿里云也在 2021 年的云栖大会上推出了首款自研云原生处理器 CPU——倚天 710,该芯片针对云场景研发,同时 兼顾了性能与易用性。
通过一年的业务验证后,基于倚天 710 的云计算实例在数据库、大数据、视频编解码、AI 推理等外围场景中的性价比晋升 30% 以上,单位算力功耗(耗电量)升高了 60% 以上。
3)虚实交融
如果说更清晰、晦涩、低成本是音视频行业在过来半个世纪以来永不停歇的不懈谋求,那么在最近十年间,一项最具时代特色的音视频体验则非虚实交融莫属。
无论是《雪崩》中的元宇宙社区,还是《头等玩家》中的“绿洲”,人类对于突破虚构与事实界线的超次元体验始终怀有梦个别的向往。
过来,这种向往只能在科幻作品中实现,然而这十年间,SLAM 技术的高速倒退让机器可能迅速定位人体地位,光学与事实技术的突飞猛进让更轻、更薄、更真切的 VR/AR 头显成为事实,Pancake 光学计划、双眼 4K 屏、90Hz 超高刷新率等已经难以企及的技术更是成为了虚拟现实的标配。
在音视频超感体验的一直倒退与边缘云、视频云技术的一直降本增效之下,3D 网络购物成为了事实;《黑客帝国》中触目惊心的“子弹工夫”现在能够在云端实时合成;《钢铁侠》中的万能 AI 管家贾维斯有了自然语言解决能力,咱们甚至可能为他配上一张有着细腻喜怒哀乐表情的真切面庞。
冬奥期间,在演播室里,当谷爱凌在自由式滑雪男子大跳台的决赛中一举夺冠时,AI 剪辑零碎实时提供谷爱凌精彩动作视频集锦并第一工夫成片后,这一视频迅速登上央视频首页举荐焦点位,两小时内播放量超过 500 万。
除了冬奥赛场上,音视频技术的倒退也正一直冲破咱们日常生活中的体验。VR 看球、工业孪生建模、3D 全息购物……更多交互维度的虚实交融拓宽着人类感知的边界,引领着一个更有想象力的将来。
而音视频行业之所以可能一直向前倒退,衍生出 360 度自在视角观看、AI 剪辑、VR 看球等诸多超过想象力的精彩利用,正是因为技术与产业的共同进步。
03 从克劳德·香农到 Imagine Computing 大赛
1948 年,近代最平凡的数学家之一、信息论的创始人、美国蠢才电子工程师克劳德·香农,以一篇震惊世界的《A Mathematical Theory of Communication》论文,正式拉开了当代信息论的大幕。
尔后的几十年间,由信息论衍生出的信道编码、图像 / 视频压缩、甚至人工智能技术,成为了推动音视频产业提高、甚至大量计算机科学产业冲破的底层能源。
是的,任何产业技术畛域的冲破停顿,都离不开产、学、研多方面的共同努力。近年间,人工智能畛域最有名的学术大赛当属 ImageNet 计算机辨认挑战赛。在 2012 年的 ImageNet 大赛上,日后的“深度学习三巨头”之一、多伦多大学的 Geoffrey Hinton 传授率领团队首次应用深度学习技术训练人工智能进行图像识别,错误率骤降至 15.3%。
而在 2015 年的 ImageNet 大赛上,来自微软亚洲研究院的团队更是第一次将错误率压到了 3.57%——这意味着,人工智能第一次在图像识别上,超过了人类。这一成绩,成为了音视频学科历史上的又一个里程碑式事件。
前沿技术的摸索须要学界和产业的独特摸索,音视频技术涵盖了 编解码、网络调度、人工智能、云端协同 等多个技术畛域,覆盖面广、技术体系简单,面对飞速发展的业务需要,往往技术人才的储备和翻新实际却显得有余。
去年,阿里云与英特尔联结主办的 Imagine Computing 翻新技术天池大赛以“新算力·新体验”为主题,聚焦音视频与云技术联合的要害畛域技术创新。
“新算力”与“新体验”别离指代的是音视频行业倒退的两大重要技术根底,也是本次大赛两大赛道的比拼主线。
首先是“新体验”。
体验始终是驱动音视频技术倒退的根基。无论是更先进的音视频编码技术让画面更清晰晦涩,还是更弱小的网络散发技术让用户观看得更低延时、更实时互动,其本质上都是工程师们对于更好、更快的音视频体验的不懈谋求。
随着企业数字过程的减速,云上视频算力也从核心逐渐延展到网络边缘从而造成新型的边缘基础设施。算力和网络在边缘侧减速交融,而视频利用是否晦涩、高清、低延时等这些直观感触已成为用户最为关怀的,如何基于边缘云构建实时音视频解决的利用,无效升高计算时延和老本,晋升最终用户体验,成为了本次较量关注的赛道之一。
其次是“新算力”。
家喻户晓,近半个世纪以来,电子信息迷信的提高与芯片算力、云计算架构的倒退非亲非故。
以后,继私有云、公有云、混合云的一直倒退之后,企业对云计算的应用需要更加多样化,推动云计算服务一直向边缘延长、下沉,向更加全局化的分布式模式进发,并逐步造成了涵盖核心云、区域云、边缘云的分布式云状态。
其中,因为边缘云能够提供凑近终端用户的、全域笼罩的、弹性分布式算力资源,通过将视频存储和散发、AI 计算、智能化数据分析等工作放在边缘解决,构建实时音视频解决,达到升高响应时延、加重云端压力、升高带宽老本,并供全网调度、算力散发等云服务的目标,而如何精确地预测网民侧的客户体验程度是视频内容散发网络进行节点优化布局、调整流量调度策略、节点软件优化的根底和指南针。基于此,边缘云内容散发网络客户体验预测算法的摸索变得至关重要。
此外,如上文所言,音视频的翻新和冲破不仅须要从云服务层面动手,也须要底层算力的硬件撑持。本次赛事还为参赛者提供了基于英特尔® Data Center GPU Flex 系列 GPU 产品的解决方案,其规范且灵便的凋谢软件堆栈和 oneAPI、弱小的 AV1 编码器和 AI 视觉推理能力,有助于缩小边缘云应用不同解决方案并治理异构或专有环境的需要,助力参赛选手更好的摸索性能减速与低延时命题。
04 结语
从 9 英寸的黑白世界杯到 4 亿人次观看的淘宝直播,从 1948 年的香农定理到 2022 年的 Imagine Computing 大赛,随着音视频技术的一直倒退与冲破,感知与技术的边界也正被一直拓宽,许多已经认为天方夜谭的离奇利用,正随着人工智能算法、算力、以及网络技术的独特倒退,逐渐从科幻作品中走进事实。
在 1966 年的科幻电视剧《星际迷航》中,Kirk 船长与企业号船员们经常应用“通用翻译”听懂宇宙各地的外星人语言;
在 1968 年的科幻电影《2001:太空漫游》中,宇宙飞船上的计算机 HAL9000 可能间接用 AI 语音与乘务员进行对话;
而在 1992 年的科幻小说《雪崩》中,黑客、日本武士兼披萨饼快递员 Hiro Protagonist 与女孩 Y·T 一起在元宇宙中制服了雪崩病毒。
明天,它们都成为了事实。
当人类优渥于一种状态,总有想象力来冲破均衡。Cloud Imagine《云想之力》是阿里云联结 36 氪独特打造的系列报道,旨在摸索云计算大背景下暴发的利用场景和新兴技术,以设想的高维碰撞之力,窥探“云”上的有限空间。从 9 英寸的黑白世界杯到 4.56 亿人的直播狂欢,从 1948 年的香农定理到 2022 年的 lmagine Computing 的天池大赛,一个超过想象力的簇新纪元,就在眼前。