共计 4093 个字符,预计需要花费 11 分钟才能阅读完成。
阿里云智能视频云 资深技术专家王豪(天野)
2010 年毕业于华中科技大学,尔后投身多媒体方向的技术开发,从流媒体、视频编码、视频解决到品质评估均有波及,并从零开始打造了一款宽泛商用的视频编码器及其前后解决零碎。退出阿里云视频云后,负责视频编码与加强算法,团队聚焦在视频编码、视频前后解决以及品质评估方向,并重点研发演进窄带高清技术。
此次作为 LiveVideoStackCon 2021 的讲师,王豪与咱们分享其对编码优化的思考与发现。
Q1. 你最近关注的技术趋势?有哪些是你认为比拟有发展前景的?
我集体的技术栈始终聚焦在视频编码和解决方向,也始终在思考,在这个方向上,咱们短期和长期的布局是什么,中短期布局如何保障竞争力,以及长期布局如何防止系统性踏空。
利用 AI 辅助视频压缩是业界十分关注的方向,它有这几种思路:
- 公有编码模式:端到端的视频压缩,基于深度学习的模块级视频压缩优化;
- 基于实时图像生成的视频压缩,因为 GAN 生成人脸和人体比拟成熟,但在其余场景成熟度不够,因而这个方向在会议场景比拟火,咱们也在继续关注和尝试。
- 基于规范编解码器的视频编码与解决联结优化,包含两局部:利用视频解决晋升编码压缩率和利用视频编码晋升视频解决成果。
这其中,我最关注“基于规范编解码器的视频编码与解决联结优化”。针对视频后处理,还有如何进行编码决策优化(包含模式和码率),同时扩大到分层编码,这个方向是整个端云联结优化的外围,对工业界利用有很大价值,心愿到时候和大家一起探讨。
Q2. 你已经参加上线的音视频业务,印象粗浅的一个是?
印象最深的必定是当下正在做的业务。咱们团队正在进行 窄带高清第二代 的算法优化降级,在如何继续提画质和降码率的过程中走了很多弯路。
目前,在窄带高清第二代优化中,咱们从人眼视觉登程,将主观最优转向主观最优,同时利用 AI 进行视频加强,再加上视频编码解决联结优化,使得码率节俭的同时,主观品质也显著失去优化,这项技术更适宜高热内容场景的解决,可能为客户带来更大的商业价值。
什么是窄带高清?
窄带高清代表的是一种老本与体验相和谐的视频服务理念,阿里云早在 2015 年就提出了“窄带高清”的技术概念,其是以人眼主观感触最优为基准的视频编码技术。窄带高清在业界属于内容自适应编码领域(contentadaptive encoding), 外围指标为:谋求带宽,品质,老本的最优均衡。
窄带高清的技术价值?
直播平台调研数据显示,只有 16% 的用户可能看到超清的视频,54% 的用户可能看到高清的视频,30% 的用户看不到高清视频。窄带高清以人眼主观感触最优为基准的视频编码,可能把超清码率往高清码率更凑近一些,让更多的人能够看到超清视频。
- 窄带高清 1.0: 通过视频前解决晋升视频品质,实现码率节俭。
- 窄带高清 2.0: 引入 AI 进行细节 / 色调自适应修复、加强,从人眼视觉模型登程,将视频的优化指标从经典的“保真度最高”调整为“主观体验最好”,在提供更加清晰的观看体验同时节俭带宽。
Q3. 你此前承受 LiveVideoStack 的采访时,有探讨过视频 Codec 的将来格局:
2019 年采访:《王豪:AI 和编码联结优化为视频压缩提供了更多可能》
“先说论断:视频 codec 的将来格局必然是群雄争霸的场面,并且在中美贸易战的影响可能呈现新的变数。因为 HEVC 专利池的各种问题,H.264 一家独大的劣势不复存在,目前 AV1 在国外基于谷歌生态的劣势,曾经在流媒体畛域站住了脚跟,造成三强争霸的场面。对于下一代编码器而言,AV2 预计距公布还有肯定的工夫,这里先不评估,曾经公布的 AVS3 基于以后贸易战的模式下可能有新的机会,而对于 EVC 和 VVC,专利策略将是市场是否承受的关键因素,目前还不好说。”
Q:在 VVC 定稿、神经视频编码进一步冲破、AV1 一直遍及的一年后,你对此有哪些的认识与思考呢?
当初仍然是群雄争霸的场面,支流也仍然是 H.264,VP9 因为压缩率没有真正和 H.264 拉开差距,尽管生态也很全面,但应用不多。H.265 的硬件解码在生产电子和智能电视上被广泛支持,惟一的软肋是浏览器。目前,在流媒体畛域,H.265 仍然是除 264 外最合适的 codec。
去年,AV1,AVS3 都找到了本人的劣势场景。AV1 凭借谷歌在 WebRTC、浏览器以及安卓的生态里被宽泛推广,因而在浏览器和 WebRTC 上的利用都有劣势,但硬件编码器的反对还是有余,尤其在生产电子畛域,目前还没有看到对 AV1 的相干反对。此外,Sisvel 专利池的问题也还没看到官网回应。而 AVS3 在国内电视广播行业成了超高清的事实标准,央视也用 AVS3 进行了 8K 直播。
VVC 从技术上来看是最先进的视频压缩协定,最合适在业务闭环场景下利用,但目前其专利费构造最早要到往年年中能力获知,集体认为专利问题很难解决,同时硬件解码反对不明朗,须要继续察看。
Q4. 除去已被屡次探讨的在线教育、语音社交等畛域,在你看来,视频云行业还有哪些畛域将迎来井喷式倒退?
目前视频的生产、制作和解决远远还不成熟,视频制作仍然存在门槛,视频解决的带宽也仍然很大。如何满足整个行业对视频化的需要、如何帮忙社会和行业升高视频制作的门槛、升高视频解决的老本,使视频可能普惠化,这些都是亟待解决的问题,而解决该矛盾的外围就是视频生成和解决畛域的技术,因而咱们十分看好内容生产与解决畛域。
阿里云视频云心愿能推动这个时代将大部分内容的表达方式和信息的传播媒介从图文进化为视频,这个方向也是咱们的发力点。当然,这两头还有很多关键技术须要继续晋升和冲破,例如实时渲染技术,AI 在生产制作畛域的进化等。
Q5. 视频云行业的蛋糕会在将来继续变大吗?阿里云视频云为挣得“更大的蛋糕”,在视频编码等相干畛域做了哪些技术储备?
目前视频曾经宽泛地利用于各行各业,视频也开始承载越来越多的社会信息,很多交互都从线下转到线上,随着 5G 时代的到来,置信视频畛域将会不可避免地迎来更剧烈的暴发。为帮忙各行各业更好地承载信息,视频技术的演进方向也会越来越云化、数字化、普惠化,视频云行业会继续高速增长。
咱们始终致力于如何将视频技术普惠化,普惠化的外围是老本和体验,基于这个思路,在视频编码和解决方向,最外围的就是如何帮客户晋升品质,同时升高带宽老本和服务器老本。
咱们所有技术布局都围绕这个目标,总的来讲做了如下方向的布局和继续冲破:
- 编码内核:软硬一体,编码器继续降老本;
- AI 辅助压缩,场景自适应编码;
- 下一代编码器优化,继续打造编码竞争力。
Q:你的职业倒退随同着视频编解码技术的一直迭代降级,能和咱们分享在编解码技术上的学习心得以及本人的职业现实吗?
感觉本人比拟侥幸,集体倒退正好遇到了多媒体技术爆发性倒退的时间段,尤其是视频技术。看到越多越多的视频压缩和解决技术不断涌现进去,是一件十分爽的事件。
对于集体职业倒退,我感觉最重要的还是趣味驱使,这对于行业入门以及后续的集体晋升都十分重要。尤其是入门期间,须要真正由趣味驱动,能力在忙碌的工作中强行抽出工夫去真正相熟一项技术。
其次,无关集体技术的降级,我感觉这就是一个一直地自我否定和自我必定的过程:自我否定能帮忙咱们找到晋升本人的方向,自我必定则能帮忙咱们在艰难的时候持续走上来。现实的话,目前是心愿能做出真正能扭转世界、影响世界的技术和算法,能扭转人们的沟通和交互方式;从技术上来说的话,心愿和同行们一起 Make Video Codec Great Again!
Q6. 本次参加 LiveVideoStackCon 2021 上海站,你将带来无关阿里云视频云窄带高清的优化思路,能够剧透一些演讲内容吗?
次要会分享:
- 咱们在窄带高清方面的思考,窄带高清归根结底是一个压缩问题,随着深度学习的倒退,视频解决,视频生成辅助压缩成为学术界和工业界的钻研重点,在这个方向咱们的观点是什么?窄带高清的终极目标是什么?
- 为达到这个终极目标,咱们对窄带高清技术的短期思路和长期思路别离是什么?为什么对窄带来讲,评估的惟一形式是主观?
- 基于该思路,咱们在短期停顿及对将来的布局和思考。
Q7. 对于这次 LiveVideoStackCon 2021 上海站的所有演讲阵容中,你对哪方面的分享内容最感兴趣?
从集体来讲,视频编码和解决方向的技术我都很感兴趣,比方如何利用 AI 辅助传统视频编码晋升压缩率、传输哪些 bit 对视频后处理品质晋升最大、编解码联动时编码器的决策须要做哪些优化、如何利用 bit 帮忙视频解决升高复杂度,以及编码器前解决如何保障编码后品质最优等问题。
除技术外,对技术商业策略方向也十分感兴趣。目前视频技术曾经缓缓变成了一个社会、行业的根底能力,在这个背景下,视频如何更好地服务于各行各业,对技术、产业、商业提出的挑战是什么?跨在技术和商业落地之间的鸿沟是什么?以及如何逾越这些鸿沟等,都是很值得探讨的话题。
Q:如果要为想从事视频编解码优化工作的同学举荐一本书 / 一门课,你会举荐什么?
编码优化是一个“实践 + 规范 + 工程”的流程,须要一直地去迭代、循环,带着实践的疑难,在规范中思考起因,在工程优化中发现问题,再从实践中寻找答案。
实践方面,视频编码属于信源编码(Source Coding)方向,个别利用都为有损压缩,因而,想要从事相干工作的同学在信源编码和率失真优化(Rate Distoriton Optimization) 方面都须要积攒根底的理论知识。
规范方面,中文书举荐杨付正老师的《新一代高效视频编码 H.265/HEVC:原理、规范与实现》,英文书举荐 High Efficiency Video Coding.Algorithms and Architectures,能够看一个规范入门,不必贪多。
工程方面,倡议大家能够拿一个开源编码器动手,比方 x265,还能够和 HM 比照着看,思考两者的差别,包含数据结构的设计、模块架构、码控等等,这样会更有感觉。
LiveVideoStackCon 2021 上海站工夫:2021 年 4 月 16 日 – 4 月 17 日
「视频云技术」你最值得关注的音视频技术公众号,每周推送来自阿里云一线的实际技术文章,在这里与音视频畛域一流工程师交换切磋。