关于音视频:视频通信中的码率控制算法

码率控制技术RC(Rate Control)是视频编码中一个十分重要的技术模块。不同的利用场景对视频编码的码率管制有不同的需要，离线编码通常采纳可变码率(VBR)，实时视频零碎通常采纳恒定码率(CBR)。本篇技术干货将深度分析视频编码中的码率控制算法，剖析其背地的数学模型及实践，心愿能帮忙大家更好地了解视频通信中的码率控制算法。

PART 01 码率管制类型

码率管制次要指编码过程中，通过调整QP来管制视频码率的行为。在不同的应用场景下，用户对视频的码率大小、稳定性会有不同的要求，因而码率管制的类型也多种多样。
比方观看离线视频文件时，往往不须要此视频具备恒定的码率，因为整个文件都在本地，只有磁盘IO和设施解码能力都合格，根本就不会产生卡顿问题（这里不探讨硬件解码的buffer限度以及内网NAS的带宽限度）。所以压抑这类视频时会偏向于保证质量而非码率平稳性。画面纹理比较复杂或静止激烈的场景，码率给高一些，以保障画面质量；而画面简略的场景，码率就给低一些，节俭硬盘空间。这种码率控制策略咱们统称为可变码率（VBR）。
但在观看在线视频时，因为用户带宽是恒定的，可能缓存的数据量也无限，所以须要对码率做一些限度。否则一些刹时码率过高的片段可能会引起卡顿。此外还有一点，因为CDN是按流量计费的，视频网站如果应用VBR编码视频会使带宽老本变得不可控。所以压抑这类视频时，会偏向于抉择恒定码率（CBR）。

不同场景下的码率管制需要
本文接下来的探讨内容次要集中在CBR，但其中的一些改进算法其实也能够用在VBR。

PART 02 码率管制根基：RQ模型

首先看一下码率管制的大体流程：

码率管制根本流程

能够看到整个流程都是围绕着RQ模型进行。这里的RQ模型指的是码率与QP的推导关系，能够说是码率控制算法的根基。它经验过屡次改良，精度也在一直进步，这里举几个例子：

一阶模型：

最简略的模型，在x264、OpenH264等编码器中被宽泛应用。式中Q指Q-step，即量化步长。R指Rate，示意码率。Comp示意图像复杂度，个别能够应用MAD（Mean Absolute Difference）来计算。α是一个系数，须要咱们在编码过程中一直依据理论输入码率来更新。

二阶模型：

一阶模型的进阶版，JM中有应用。

R-λ模型：

在HM（HEVC Test Model）中被引入的模型[1]，显著晋升了码率控制精度。式中的λ是率失真优化中应用的拉格朗日乘子，放在下节作为拓展内容介绍。而f(λ)则是通过试验拟合失去的。比方HM中就是：

PART 03 MAD值的获取与模型的更新

下面提到图像复杂度能够应用MAD来计算，然而以后帧的MAD值只能在编码后能力失去。这与QP须要在编码前确定这一点相矛盾。另外，在模型确定后，咱们还须要确定模型的更新形式及速率。通过进步模型系数的更新速率，能够使编码器的输入码率更加安稳；但绝对的，画面质量可能因为QP变动幅度过大而降落。
针对这些问题，不同的编码器抉择了不同的计划：

在JM中，应用了一个一阶线性模型依据过来帧的MAD来预测以后帧的对应值。而RQ模型的系数则间接通过以后帧的编码后果来反向计算失去。

在OpenH264和x264中，则放弃了MAD的计算，转而合并了

，把它作为一个整体来计算。

对于R-λ模型，其提出者也曾经设计了对应的更新公式和经验值供咱们参考[1]。

模型更新这部分内容，更多是工程实际上的考量，须要依据教训和测试状况一直调整。

拓展：λ是什么
R-λ模型中的λ是率失真优化中的一个系数。这里的率失真优化，指的是编码过程中的一个优化步骤。要具体解释它，咱们须要先理解率失真实践。它起源于香农的钻研[2]，大抵能够概括为：在给定的信源散布以及可承受的失真度D下，求信息数据量R的实践最小值。显然，可承受的D越大，其对应的R也就越小。这个R-D的关系边界，咱们称为率失真曲线，即下图中的红线[3]。旁边的绿线则是编码器理论工作区域的边界，它和理论值存在肯定差距。

R-D曲线
视频编码标准提供了大量的工具集，或者说编码模式，它们就相当于上图的绿点。在它们之中抉择一个失当的来应用是一件比较复杂的事件。留神到这个问题实质是一个数学最优化问题，所以能够利用拉格朗日乘数法的离散模式来解决它。简略地说，引入一个拉格朗日乘子λ，构建代价函数，再去求取代价函数的最小值即可：

艰深地了解，λ就相当于失真与码率的权值。给定了λ，也就给定了一个断定模式好坏的规范。如下图所示，求代价函数最小值，相当于求斜率为λ的直线与R-D曲线的切点。在编码过程中，不论是模式抉择，还是静止矢量的比拟，都会利用到这个办法。

拉格朗日乘子R-D曲线斜率
R-λ模型的提出者首先依据试验数据提出R-D曲线能够近似拟合为一条双曲线，再依据λ是R-D曲线斜率这一点，求得了R-λ模型：

PART 04 码率管制优化算法

上文介绍的内容，属于码率管制外围算法，其目标仅为管制输入码率，使其尽可能地靠近指标。但在理论利用中，咱们并不需要这么严格地执行。在输入码率根本满足要求的前提下，咱们仍然有肯定的调整空间来改善画面质量。下文将介绍几种这方面的算法。

Adaptive-Quantization
因为人眼对不同类型的画面的细节感知水平是不同的，所以给不同画面内容给予雷同的权重来调配码率实际上是比拟节约的。比方高速静止的物体就能够绝对动态物体含糊一点。在这方面做文章的算法个别归类为基于感知的码率控制算法。而其中一类比较简单且应用宽泛的算法，叫做Adaptive Quantization（AQ）。简略来说，它利用图像的方差或其余相似特色来掂量以后宏块的复杂度，对于内容较简单的宏块，算法认为能够适当舍弃其细节，所以增大其QP；而简略的宏块则反之。通过这种调整，视频的主观品质能失去大幅晋升。现在很多编码器都实现了AQ，比方x264的实现如下所示。计算失去的qp_adj即QP偏移量，会叠加到R-Q模型计算出来的QP上：

// x264的AQ外围实现。ac_energy_mb计算宏块像素值方差。strength代表AQ强度，由用户配置。
uint32_t energy = ac_energy_mb( h, mb_x, mb_y, frame );
qp_adj = strength (x264_log2( X264_MAX(energy, 1) ) – (14.427f + 2(BIT_DEPTH-8)));
利用人眼感知能力的码率控制算法还有很多，比方基于最小可发觉误差(JND, Just Noticeable Distortion)的，或者基于机器学习的，这里不再开展。值得一提的是，因为是针对主观视觉体验的优化算法，通过PSNR等主观伎俩测试往往无奈体现这些算法的劣势。

MB-Tree
MB-Tree是由x264的开发者提出的算法，它的根本思维是：因为视频数据在编码时存在依赖关系，被参考的数据的失真水平间接影响到后续的预测精度，所以依据依赖关系给予不同画面不同码率权重能够从整体上晋升画面质量。

MB-Tree的实现依赖于x264外部的lookahead构造。所谓的lookahead，是一种预编码模块。它会应用通过下采样的低分辨率图像事后对视频进行一轮编码（这种预编码只进行到SATD的计算），并缓存大量有用的信息供后续正式编码应用。咱们在应用x264编码视频时，常常会看到-lookahead参数，它示意预编码的帧数，减少这个值利于晋升编码品质，然而会减少编码时延。

有了lookahead缓存下来的信息，咱们就能够从最初一帧开始，逐帧回溯每个MB的依赖性，或者说重要性，再依据这个重要性计算QP的偏移量。MB-Tree的原理十分有特色，如果读者对细节感兴趣，举荐浏览x264开发者的文章[4]。

PART 05 总结

本文概述了码率控制算法的根本思维和原理，而理论的代码实现，往往是和利用场景高度相干的。开发者不仅须要关注编码器自身，还要联合网络QoS和视频特色等因素综合考量。并且，优良的码率管制模块也不太可能是欲速不达的。不论是画面质量与码率平稳性的取舍，还是参数默认值的配置，都须要通过测试来一直调优。

参考文献
[1] JCTVC-K0103
[2] C.E. Shannon, Coding theorems for a discrete source with a fidelity criterion, in IRENational Conventwn Record, Part4, pp. 142-163, 1959.
[3] A. Ortega; K. Ramchandran, Rate-distortion methods for image and video compression, IEEE Signal Processing Magazine, Volume: 15, Issue: 6, Nov 1998.
[4] Garrett-Glaser J. A novel macroblock-tree algorithm for high-performance optimization of dependent video coding in H.264/AVC[J]. Tech. Rep., 2009.

关于音视频:视频通信中的码率控制算法

PART 01 码率管制类型

PART 02 码率管制根基：RQ模型

PART 03 MAD值的获取与模型的更新

PART 04 码率管制优化算法

PART 05 总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于音视频:视频通信中的码率控制算法

PART 01 码率管制类型

PART 02 码率管制根基：RQ模型

PART 03 MAD值的获取与模型的更新

PART 04 码率管制优化算法

PART 05 总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复