共计 5917 个字符,预计需要花费 15 分钟才能阅读完成。
引言
20 世纪 80 年代,当多媒体技术诞生,一个全新的多媒体利用时代大幕徐徐开启。四十年间,一代代技术人一直投身多媒体事业,这其中有许多深耕该畛域的匠心人,埋首钻研并继续翻新,引领和推动多媒体技术一直演进,蓬勃发展。
上海交通大学电子工程系传授、图像所副所长宋利老师便是这样一位一路见证多媒体技术起步和勃兴,深耕多媒体技术数十年,引领着高校教学和钻研数字化前行的“匠心人”。在本期技术指针中,咱们将追随腾讯云 TVP、上海交通大学 电子工程系传授 图像所副所长 宋利老师,透过学者视角,开启一段微妙的多媒体技术倒退之旅。
一、看起步倒退,忆多媒体历程
早在二十多年前读博士时进入多媒体畛域,宋利老师便扎根于此,一路以来,他见证着多媒体技术从 H.264 时代倒退至现在的深度学习时代,也随同技术的倒退而成长。那么,接下来,咱们将追随宋利老师的脚步,回首与多媒体的不解之缘。
我从 2005 年博士毕业后留校,始终专一多媒体畛域教到当初,从讲师到副教授、传授这样一步一步地做。遐想当年没有当初这么冷落,我印象中当年的同一届学生里有好多人都曾经转行了,并没有留在多媒体畛域。然而我在念博士的时候,因为酷爱所以比拟认定本人将来要在多媒体行业里工作,而且视频编码畛域领有一半技术一半艺术,一半可控一半不可控,这一点也十分吸引我继续投入。
其实,我做的第一个我的项目是图形学,次要是给虚拟人试穿衣服以模仿真人试衣,这是当初看起来都很超前的一个技术。在那之后我开始转到视频编码畛域,两头也有跟踪过一段音频技术,而后便一路从 H.264 时代、H.265 时代、H.266 时代,当初到深度学习时代,算是见证了多媒体行业从起步到倒退的环节。
在学者以外,我的另一个身份是老师。我集体是比拟喜爱做老师的状态,教学相长,当能把一个货色讲给他人听时其实是又学习了一遍。同时每学期都是新同学,新面孔,每次都有新鲜感,要把他们领入门,心愿他们成长起来,成长得更好更快,这种感觉其实还是挺难得和挺棒的,这可能也正是做老师的乐趣所在。我其实也很尊重学生的抉择和共性,我个别会让我的研究生花些工夫去理解本人喜爱什么,善于什么,我心愿学生做本人喜爱且善于的事。作为高校教师,毋庸置疑还是要保障本人业余的精湛,我在多媒体畛域外面从事工夫最长,大概超过一半的投入和产出、我的项目起源、学生、做的成绩,还是在视频编解码畛域,因而在这方面还是在继续发力的。我上课时跟学生也正好讲到“T model”,“T”这一横的意义是代表博大,常识要有广度,但还有一个很重要的是“T”这一竖的杠杆,即深度,深度是代表你的业余,只有足够深能力找到本人的立足点。
多媒体其实入门不难,然而要做到精湛,是须要投入工夫打磨的,须要有工匠精力。就好比一本教材,往往要出到第三版才会有比拟优质的内容,对于产品,对于技术也是这样,咱们得倾泻激情,花工夫去晋升技能,要一直地拓宽视线和学习范畴。多媒体的特点就是它是一个一直变动的滑动窗口,下一代可能走的就不是这个技术体系,而正是学习能力和投入决定了你能走得多远。
在这个市场蓬勃发展的阶段,因为市场足够大,做得不好也能分一杯羹,但等到市场进入竞争强烈的状态时,那就只能靠打擂了。因而我和很多同学说,心愿大家毕业当前到各个公司外面是做编码器设计的人,而不是简略拿编码器去改,咱们要有能力从新写一个,争取坐上第一把交椅。
二、看深耕畛域,剖多媒体演变
在多媒体发展史上,多媒体一词的概念,编解码的规范,它们都经验了哪些演变;在编码标准上,咱们又是如何实现从追随到带路的转变?从概念外延到规范迭代,宋利老师将为咱们一一娓娓道来:
多媒体畛域的倒退大概经验了 40 年的工夫,1990 年,以视频编码第一代规范 H.261 为代表倒退到当初,现在咱们日常应用的微信视频号,腾讯会议的背地都是多媒体技术在撑持,它经验了很大的演变。
第一个演变阶段是 TV,即电视阶段,从电视台把一个节目能传到咱们的家里原来至多须要通过 300 多个设施和环节。第二阶段走向为 OTT,或被称为流媒体,流媒体把原来电视时代的大堆专用设备都简化了,对咱们多媒体人而言是一个网络的呈现,尽管终端看到的货色没有变动,但其实背地曾经产生了重大的构造演变。第三阶段则是手机终端化,现在咱们仅仅应用手机就可能解决绝大部分的问题。将来再进一步向交互性更强的方向倒退,就是现在大家热议的元宇宙,也是腾讯所说的全真互联网,我最近还取了一个新词叫“临境媒体”,它们比原来的多媒体的外延又更加丰盛了。
我在上课时也给同学们留了一个思考题,云游戏到底是游戏还是视频?咱们打的是游戏,但撑持游戏的却是视频的技术,它其实是将渲染完的后果再以视频模式推到用户侧。低时延编解码、视频解决,它们的外延比以前无疑扩充了许多。有时候语言限定了大家的想象力或限定了常识,咱们至今还在用“多媒体”这个词,但“媒体”的外延其实与二十年、十年前相比曾经产生了很大的变动。
(一)视频编解码迭代下,H.267 路在何方
以后,视频编解码从某种程度上来说曾经倒退渐趋成熟,能够说只有存在视频的中央,那么这个视频都不会是原始视频,它背地肯定有编码器,它也是属于基础架构外面不可或缺的环境。
通信外面的 1G、2G、3G,当初曾经倒退到 5G,类比到视频编解码其实也有代际的概念。鉴于视频编解码比拟具备通用性,所以它有一个规范在前面推动。从第一代 H.261,到 H.262 即 MPEG-2,再到 H.263 跟 MPEG-4 是两头过渡的,而后又倒退到 H.264,H.264 是当初用得最多的,到 H.265 和最新规范 H.266,一路走来咱们通常认为有四代编解器,每一代的倒退也差不多历时 8 到 10 年,加起来一共 35 到 40 年的工夫。这和挪动通信一样,目前视频编码也差不多走到同样的地位,对应的 H.266 进去当前,大家认为视频编解码再往前走到 H.267 的话,是否还持续沿着这个规范和这条繁多的演进路线走上来,这是一个有待思考和摸索的问题。
(二)编码标准的“垄断”与“带路”
其实,当初的编码标准也分为几条线,新近咱们更多还是参考国外的规范或者国际标准为主。这次要是因为我国国起步较晚,那时候很多技术都有工夫程序,很多 ICT 的技术就来自于欧美,咱们只能从后向前追赶。国内规范是从大略二十年前产生,近几年开始声音比拟大,是国家和电信畛域外面认可的规范,当初的代表是 AVS。
值得一提的是,多媒体畛域外面有一个特点是华人比拟多且他们的能力很强。国内规范可能独自做起来,性能也与国际标准根本放弃在同一级,甚至在某些方面还会做得更当先,也是得益于国内外许多华人的推动。特地是在国内,包含腾讯这些公司在这方面投入很大。从这个意义上来说,咱们在根底上并不落后,甚至是处在领先地位。在明确赛道的状况下,中国人个别用十年工夫能够实现他人要用两三代工夫实现的事,目前阶段,咱们更心愿是咱们去带路,让他人追随中国的步调。
三、看技术热点,寻多媒体利用
现在,多媒体利用走进了千家万户,在线视频会议办公,短视频娱乐都为咱们的工作和生存带来了极大的便当。那么,一场在线视频会议的背地须要怎么的多重技术撑持;RTC 又有哪些充斥设想空间的新兴利用场景?让咱们追随宋利老师一探到底。
(一)多媒体技术推动在线视频会议的衰亡
“本来咱们预想到视频会议必定会走到千家万户,然而没有预料到它的倒退速度会是如此之快,用户规模如此宏大,而且成为咱们日常的刚需。”宋利老师感叹道。
咱们上的很多课程是专题性质的,一门课里会有很多专题,比拟适宜邀请不同专题上面的专家来别离授课,这样不同畛域的专家可能为学生提供更为深刻的解读,对于这类课程,在线上开一个腾讯视频会议,能够大大节俭异地老师的上课工夫,比线下教学的可操作性更强。
当初咱们学校也是用腾讯会议企业版,腾讯的产品和服务态度都做得很好,失去了师生的认可。学校的课程会对立导入腾讯会议,每天的课程都会按时给老师发送揭示,所有选了课的学生,只有登录后就能够通过在线列表间接退出课程会议,这一点非常不便。
(二)在线视频会议背地的多重技术
视频会议零碎是一个很典型且残缺的古代多媒体通信零碎。当初,咱们广泛把它定义成 RTC 类的典型利用,它较流媒体而言在技术上的挑战更大,次要在于视频会议是双向互动的,而非流媒体的单向输入。在线视频会议的背地,其实有着多个技术步骤:
第一阶段是屏幕采集,从老师到学生这一侧是典型的屏幕采集,比方咱们上课个别会用笔记本电脑,首先须要捕捉屏幕,屏幕捕捉包含图像和声音两局部,其中声音还包含屏幕外面的声音,比方播放的视频声音,以及人谈话的声音,是依照 30 帧,每秒钟 30 次去抓取画面和声音。
第二阶段是图像处理,在屏幕捕捉后便进入解决阶段,包含噪声解决、色彩修改、设施光洁对立、美颜滤镜等,这些咱们都称之为图像处理,通过这一步,这就过了一个信号处理的滤波。
第三阶段是编码压缩,在这阶段就进入编码器,音频和视频都会被离开压缩。在压缩过程中,各种编码标准便会开始执行,压缩结束后便会生成一个音频流和一个视频流。
第四阶段是复用和打包,鉴于音频流和视频流须要传输到网络,所以还有一个复用和打包的环节,将音频流和视频流依照工夫排列好,同一个工夫的打包到一起,盖一个戳,这便称为复用打包,同时,复用打包也是非常有考究的,须要依据传输网络的要求,当初多媒体个别是在 IP 网络之上,所以会把它打成 IP 包。
第五阶段是网络散发,打包当前就能够过网络散发了,散发结束后,无论学生在哪里,只有可能上网,便能从网络上把这个包拿下来。
第六阶段是逆向解包、解复用,剩下的工作就是把包裹拆开,音频和视频都拎进去,对照看看工夫是否对准,再把它们依照工夫点放到缓存区外面排列好。原来的视频如果是流媒体,咱们叫播放器,播放器就会把音频、视频拿进去解码,把音频还原成音频,从二进制还原成信号,视频还原成图像,而后播放。其实 RTC 也一样,视频会议也一样,视频会议不叫播放而叫显示或出现,也是一样把实时的包抓进去,音频、视频放到显存、声卡里,而后进行解码,到这一步又还原成一幅图像、一个视频。
最初,第七阶段是后处理,比照后面阶段的前解决,最初一步咱们对应称之为后处理。因为咱们再往前推是显示器,从数字到模仿还有一个适配的过程,所以后处理次要是对于屏幕适配来做一些调色和缩放解决。
腾讯会议作为在线视频会议的典型代表,从用户层面来看,它次要给我三种感触:首先是它简略好用,操作不便。其次是品质高,尤其体现在声音方面,尽管是视频会议,但咱们往往更多会关注参会人的声音。腾讯会议的噪声克制相比以前有了显著晋升。最初无疑是稳定性高,依附腾讯云,腾讯会议可能保障大规模用户的同时在线。
咱们做学术的人往往强调的是下限,须要大家发表论文要讲创新性。但我认为做产品则须要稳住上限,毕竟是给千百万人应用的货色,须要破费更大力量来保障上限。把一个货色做进去可能不难,然而要把它做成一个用户规模很大、十分稳固运行的产品则极具挑战性。
(三)RTC 既是娱乐工具,也是生产力
实际上,RTC 不仅仅是繁多技术,它还是一个零碎。方才咱们提到的编解码,做流媒体用的散发类的编码器跟实时通信的编码器是不一样的要求,比方低时延的很多货色。这两年云游戏、直播等倒退得很快,在这背地其实很多技术都跟 RTC 相干,直播里就有使用 RTC 的局部技术,比方腾讯的快直播。公众热议的元宇宙,其实它背地也离不开 RTC,此外,RTC 和工业联合起来布局近程监控、近程操作、近程医疗、近程救护、近程培训,这些利用也会是将来的新兴方向。
毋庸置疑,RTC + 各种利用能够影响咱们的娱乐、生存、生产、工作,例如,腾讯跟三一智矿公司单干的“主动驾驶 + 近程操控”的智慧矿山无人化计划便是一个典型的工业利用场景,次要是基于腾讯云实时音视频(TRTC)与 5G 网络交融技术,能够将视频传输时延大幅升高,为矿山作业人员提供更加稳固、晦涩、牢靠的近程操作体验。
腾讯云特地是视频局部在整个行业里是走在前列的。在视频这块,腾讯云走得最为深刻,产品利用很多,且都细化到了解决方案上,比方 TRTC、快直播、流媒体等,针对不同场景都做了优化,这也阐明腾讯云在音视频这块做得十分粗疏,而且外面的技术创新和疾速迭代大家也是引人注目。
从行业角度来说,我期待在现有根底上能有肯定升格。我置信在腾讯云产品的迭代更新过程中,自身也会有很多独创的货色非常适合中国,期待腾讯云的翻新能在将来升级成行业的标杆或规范。据我理解,腾讯的多媒体实验室也做了很多标准化的工作,我期待将来在这方面能有更多的冲破。
四、看将来方向,探多媒体的下一站
随着元宇宙、ChatGPT 等新兴技术不断涌现,与之严密相干的多媒体的下一站将走向何方,咱们该如何把握它的数字化将来呢?追随着宋利老师的眼帘,咱们一起瞭望多媒体的将来前景。
其实,从消费者的角度来说,大家对于新技术的关注更多还是在于终端技术,目前手机屏幕占据了咱们最多的应用工夫,那么在将来,多媒体的下一块屏会在哪里?到底是头盔,还是眼镜,又或是全息,目前各种摸索层出不穷。下一块屏实际上也是下一代终端的原型,它将带动整个行业往前跳跃。
就整个根底链上而言,无论是 XR 还是 VR,咱们能感觉到更多的驱动力其实还是来自于终端,终端对应的头端是成像采集、拍照技术、成像技术、声音技术,甚至包含虚构制作。AR 代表更多的是生成,多媒体内容的生产、生成有很多新花样。以 AI 为代表的内容,元宇宙的虚实联合带来的货色,我感觉会把以后多媒体的很多货色颠覆掉,极大地拓宽多媒体的维度。
例如在过来咱们的多媒体其实都是把内容记录下来,尽可能保障真实感。然而当初退出元宇宙、AI,便能够发明出多个虚构形象,用户还能够和虚构形象进行互动,即虚实交融、虚实相生,这里有着很大的设想空间。
业界的首领,包含腾讯提及的全真互联网概念,国外的元宇宙概念,其实都曾经给咱们的倒退指明了方向,这当中的门路可能有快有慢,但方向我集体还是非常认同,它最终的目标就是心愿咱们能达到更高的体验。
在一个大周期外部是小模块在迭代,到达某一个点后,即是随着破坏性技术的呈现,大周期将会忽然产生一个大的跳跃,叫做“升维”,会“咔嚓”带动整体往前走一步又再进入循环,往往技术提高就是这样,但它经常是不可意料,忽然呈现的。背地科研人员也好,行业也好,国家也好,其实咱们都没有停下追赶的步调。
结语
在短短四十年工夫里,多媒体技术从破空而来倒退到当初利用遍地开花,并还在一直向前冲破,正是一代代像宋利老师这样的多媒体“匠心人”,用多年耕耘和继续摸索,才让咱们明天的视听世界得以如此丰富多彩。TVP 技术指针,下期将持续和你一起,探寻技术假相。