在音视频倒退的历程中,编解码无疑是其最外围的性能,编解码规范的更新换代也极大促成了音视频技术的倒退以及行为模式的变更。从电视到网络视频以及当初的网络直播、点播、音视频会议等等,这些变动的背地都离不开音视频编解码技术的更新迭代。比方 H.264(依然是目前应用最多的编解码标准)以及 H.265/HEVC(局部大厂在应用 优酷 腾讯等), 以及国内的 AVS 系列。
h.26x 系列
视频编码标准的倒退简史
LoveYFan
H.261- 视频编奠基者
H.261 设计的目标是可能在带宽为 64kbps 的倍数的综合业务数字网(ISDN for Integrated Services Digital Network)上传输品质可承受的视频信号。编码程序设计的码率是可能在 40kbps 到 2Mbps 之间工作,可能对 CIF 和 QCIF 分辨率的视频进行编码,即亮度分辨率别离是 352×288 和 176×144,色度采纳 4:2:0 采样,分辨率别离是 176×144 和 88×72。
H.261 在图像编码上应用了咱们当初比拟相熟的离散余弦变换(DCT)算法,它在起初的 JPEG 编码中起次要作用。但不止于此,它引入了一系列针对视频的个性,奠定了古代视频编码的根底,其中次要有宏块(Macroblock)和基于宏块的静止弥补(Motion Compensation)。
H.261 应用 YCbCr 色彩空间,并采纳 4:2:0 色度抽样,每个宏块包含 16×16 的亮度抽样值和两个相应的 8×8 的色度抽样值。YCbCr 又成为 YUV,依然是当初编解码标准所采纳的色调空间。
宏块与基于静止弥补的帧间预测
咱们晓得,视频是由一帧一帧的图像组成的组合,个别状况下一秒钟的视频中会蕴含 24、25、30、60 或更多张图片,它们依照肯定的工夫距离播放进去,基于视觉残留原理造成了晦涩、会动的画面。在间断的几帧之间,实际上存在着大量反复的画面,比如说上面这个例子:
一个红色台球在绿色桌面下面静止
用小球静止的方向和间隔来形容图像的变动
如果是以传统的思路对每一帧图像做压缩的话,显然整个视频在压缩过后仍存在大量的冗余。那么怎么办呢?H.261 规范引入了宏块的思维,它将整个画面切分为许多小块,而后再引入基于静止弥补的帧间预测——画面的大部分都是不动的,那么咱们将不动局部的区块沿用之前的压缩后果,动的局部用静止方向加间隔这样一个矢量来形容不就能够节俭出大量的存储空间了吗?
DCT 算法
将 8×8 个像素分成一个块
DCT 算法起源于上世纪 70 年代,到了 80 年代中后期,有研究者开始将其用于图像压缩。这种算法能够将图像从空间域转换到频率域,而后做量化——缩小人眼敏感水平较低的高频信息,保留绝大部分低频信息,从而缩小图像的体积。最初再用高效的数据编码形式将解决过后的数据进一步压缩,这里应用了 Zig-Zag 扫描和可变长编码。
在 H.261 及之后基于 H.261 框架的视频编码中,DCT 算法次要针对的是关键帧的压缩,所谓关键帧,就是在静止弥补中作为基准参考的一帧。打个比方,就像 Flash 动画中的关键帧一样,它定义了一个终点,后续的几帧都是基于这个关键帧演算进去的。因为它只做帧内压缩,不波及其余帧,又被称为 Intra-frame(帧内编码帧),简称 I 帧。
MPEG-1: 引入帧类型概念
MPEG-1 是为 CD 光盘介质定制的视频和音频压缩格局。MPEG-1 采纳了块形式的静止弥补、离散余弦变换(DCT)、量化等技术,并为 1.2Mbps 传输速率进行了优化。MPEG-1 随后被 Video CD 采纳作为核心技术。
音频 -MP3
MPEG-1 音频分三代,其中最驰名的第三代协定被称为 MPEG-1 Layer 3,简称 MP3,目前依然是宽泛流传的音频压缩技术。
视频 - 引入 B 帧以及 GOP
在 H.261 中其实曾经有视频帧的概念了,比方下面的关键帧(就是一张残缺的动态图像,能够间接被解码进去),另外的帧则是通过静止弥补算法在关键帧之上计算失去的。
不过 MPEG-1 真正引入了帧类别的概念,原来的关键帧被称为“I 帧”,基于帧间预测计算失去的帧为 P 帧。在这两种 H.261 已有的帧类型外,它引入了一种新的帧:双向预测帧,也叫作 B 帧。
不过引入 B 帧的同时,也使编解码的复杂度进步了,MPEG-1 又提出了 GOP(Group of pictures),即 I 画格和 I 画格之间的画格排列。
图像群组就是一组以 MPEG 编码的影片或视讯串流外部的间断图像。每一个以 MPEG 编码的影片或视讯串流都由间断的图像群组组成。
下图是 GOP 示例
MPEG-2:DVD 规范
对于 MPEG-1,它并没有太大的改变,次要是针对 DVD 利用和数字时代进行了改进。
反对隔行扫描
隔行扫描(英语:Interlaced)是一种将图像显示在扫描式的显示设施上的办法相比逐行扫描,隔行扫描占用带、宽比拟小。扫描设施替换扫描偶数行和奇数行。
一个慢速的隔行扫描的示意
H.263: 相熟的 3GP 视频
原先的 H.261 和 MPEG-1 都是偏差于低码率利用的,随着互联网和通信技术的飞速发展,人们对网络视频的需要在进步,在低码率下谋求更高质量的视频成为了新的指标,而作为通信业的一大规范制定者,ITU-T 在 1995 年推出了 H.261 的间接继承者——H.263。
在上世纪 90 年代,3GP 也是风行一时,它缩小了存储空间和较低的带宽需要,让手机上无限的存储空间能够应用。目前在 3GP 中 H.263 依然占据着支流位置。
H.264/MPEG-4: 到了相熟的 Part
H.264/AVC 是一种面向块,基于静止弥补的视频编码标准。到 2014 年,它曾经成为高精度视频录制、压缩和公布的最罕用格局之一。
H.264/AVC 蕴含了一系列新的特色,使得它比起以前的编解码器岂但可能更无效的进行编码,还能在各种网络环境下的利用中应用。这些新个性包含:
- 多参考帧的静止弥补。比起以前的视频编码标准,H.264/AVC 以更灵便的形式应用已编码的更多帧来作为参考帧。在某些状况下,能够应用最多 32 个参考帧(在以前的规范外面,参考帧的数目不是 1 就是对 B 帧来说的 2)。该个性对大多数场景序列都能够带来肯定的码率升高或者品质进步,对某些类型的场景序列,例如疾速反复的闪光,重复的剪切或者背景遮挡的状况,它能很显著的升高编码的码率。
- 变块尺寸静止弥补。可应用最大 16×16 至最小 4×4 的块来进行静止预计与静止弥补,可能对图像序列中的静止区域进行更准确的宰割。这些类型共有 16×16、16×8、8×16、8×8、8×4、4×8、4×4。
- 为了缩小混叠(Aliasing)并失去更锐化的图像,采纳六抽头的滤波器(六阶数字滤波器)来产生二分之一像素的亮度重量预测值。
- 灵便的隔行扫描视频编码(interlaced-scan video coding)。
- …..
H.265/HEVC:难堪的继任者
作为 H.264 的继任者,HEVC 被认为不仅晋升影像品质,同时也能达到 H.264/MPEG-4 AVC 两倍之压缩率(等同于同样画面质量下比特率缩小到了 50%),可反对 4K 清晰度甚至到超高清电视(UHDTV),最高清晰度可达到 8192×4320(8K 清晰度)。
下图是 H265 与 h264 主观视频性能比拟
从下面的性能比拟咱们晓得 H.265 在各种参数上都要优于 H.264,那为什么说它是 难堪的继任者 呢,
- 现有大部分音视频还是以 H.264 为主,且 H.264 能够满足大部分的场景
- 受权费过于低廉,国内外音视频服务厂家被 H.264 曾经薅了一次羊毛,如果再反对 H.265 又要交受权费用,所以目前只有一部分大厂 (腾讯,优酷) 再特定的影片上应用。
- H.266 曾经公布,所以如果的确有需要的可能等着接入 H.266,不太须要的依然不会接入 H.265,所以它的地位比拟难堪。
不过 H.266 可能还须要几年的倒退,留给 H.265 的工夫不多了,不过它依然有机会。
H.266/VVC: 将来编码
它来了它来了,它迈着六亲不认的步调走来了,必将引领新一代音视频世界的倒退,它就是 H.266/VVC。
2020 年 7 月,H.266/VVC 视频编解码规范发表编辑实现,也是这个时刻为将来 10 年内音视频倒退方向指明了方向。
VVC 全称 Versatile Video Coding(多功能视频编码),也称为 H.266、MPEG-I 第 3 局部 或将来视频编码(FVC)。VVC 的设计初衷是为了在同样的视频品质下达到更大的压缩比、更低的码率,为 4k、8k 超清视频、360 全景视频等更多场景赋能。当然 VVC 还有其余个性:
- 无损和主观无损压缩。
- 4K 到 16K 的分辨率以及全景视频
- 10 至 16 位的 YCbCr 4:4:4、4:2:2 和 4:2:0、BT.2100 宽色域
- 峰值亮度为 1000、4000 和 10000 尼特的高动静范畴(HDR)
- 辅助通道(用于记录深度,透明度等)
- 0-120 Hz 的可变帧速率和分数帧速率
- 对于工夫(帧速率)、空间(分辨率)、信噪比、色域和动静范畴差别的可适性视频编码
- 立体声 / 多视角编码
- 全景格局
- 动态图像编码
该规范预期的编码复杂度为 HEVC 的数倍(最多十倍),但具体取决于编码算法的品质。其解码复杂度预期约为 HEVC 的两倍。
视频规范更新换代 / 编码效率的更新
PS
• VTM = VVC test model, latest version is VTM-10.0(测试模型参考软件平台)
• JVET = Joint Video Experts Team of the ITU-T VCEG and ISO/IEC MPEG(VVC 规范委员会)
H.266/VVC 长处
降低成本
现有的 H.264/H.265 曾经满足大部分的音视频业务需要,然而在一些业务下曾经达到了瓶颈,还有 CDN 的带宽流量也是一比很大的投入,如果能在在同样的视频品质下达到更大的压缩比、更低的码率,那么就意味着能以同样的 CDN 服务器服务更多的客户,降本提效。
赋能更多场景
新兴的业务比方 VR(Virtual Reality 虚拟现实),AR(Augmented Reality 加强事实),360 全景等,必须应用 4k 甚至更高的 8k 分辨率能力达到成果,在这个情境下就是如何更快 (低提早)、更好(分辨率)、更少(低码率) 的传输数据,现有的编解码计划曾经无奈满足。国内外 VVC 倒退现状
国内 H.266 的倒退
- 积极参与 H.266 的规范制订,其中代表的是腾讯、阿里,都在 H.266 制订规范的过程中提交了几百份提案,被驳回率过半。积极参与规定的制订,前面才有发言权,这是血的教训。
- 腾讯开源首个 H.266 编解码器 https://github.com/TencentClo…,详情请参看 https://www.infoq.cn/article/…
AVS 系列
AVS 倒退历史
国内的 AVS 编解码规范因为起步较晚,大部分专利都在国外,大部分国内企业还是会沦落到任人宰割的地步。另外 AVS 编码体系性能上还是有所有余。依据 IEEE 出具的一份 HEVC/VP9/AVS2 编码效率比照报告,其中在随机拜访条件下,HEVC 性能优于 VP9 24.9%,AVS2 6.5%;在提早条件下,HEVC 优于 VP9 8.7%,AVS2 14.5%。在某些畛域,AVS2 比照 HEVC 曾经相差不大,但从总体性能和利用规模来看,AVS2 还有很长的路要走。所以即便国家在竭力推动 AVS,其利用场景还是比拟少,国企里用的比拟多。
Google 系列
VP8
从技术角度来说,VP8 采纳的技术是相似于 H.264 的。尽管在咱们看到的宣传中,VP8 领有比 H.264 更佳的压缩效率,但在理论利用中,因为它在设计上有肯定的瑕疵,体现并不如 H.264,最终它尽管进入了 Web 规范,但也没见有人用它,反而是由它的帧内压缩技术提取而成的 WebP 受到了欢送。
VP9
VP8 的体现并不现实,Google 很快就推出了它的继任者——VP9。这次,他们参考的是 HEVC,设计指标同样是高分辨率下的高效编码。VP9 中的一些设计是受到了 HEVC 的影响的,比如说同样最大为 64×64 的超级块(Super Block)。最终 VP9 达成的后果是提供了比 VP8 高达 50% 的效率晋升。看起来它可能和 HEVC 比肩了,然而它也遇到了和 VP8 类似的问题,推广不开。VP9 的利用范畴理论也局限在 Google 自家的 Youtube 中,只能说是短少理论利用场景。
将来音视频倒退的思考与瞻望
深度学习以及端 - 端智能赋能将来音视频倒退。
深度学习
通过模型训练 AI 来智能调整编解码器参数。
端智能
建设端 - 端的通信链路