视频编码 | 乐趣区

关于视频编码:Hudl-×-微帧为美国运动分析平台提供极致视频编码服务

不久前，Hudl对外官宣了与微帧科技的单干，正式颁布在其平台内融合微帧的WZ264及WZ265智能编码引擎，以提供更清晰的视频成果，帮忙教练与运动员更精准剖析较量录像。 Hudl是美国一款为教练和运动员提供较量录像的剖析工具，用户能够通过Hudl客户端回看视频，捕获、编辑较量或训练霎时，并通过工具标注须要剖析的中央，以供教学应用，并有针对性地优化团队单干。Hudl创建之初，从中学橄榄球队做起，至今北美95%以上的中学橄榄球队，都是他们的客户。随后从橄榄球我的项目横向延展，Hudl的客户遍布各种球类运动、田径、水上运动等40多种体育项目的青年、业余和业余球队。从北美走到寰球，目前Hudl领有了超20万支体育运动队用户，其中不乏皇家马德里、巴塞罗那、国际米兰等世界出名静止俱乐部的教练组。 HUDL的视频上传量十分微小，在赛季最高峰，他们单位工夫上传云端的视频量，甚至超过了YouTube。当Google Chrome反对HEVC的音讯降临之时，Hudl就下定决心要降级平台内的视频编码方案，以提供更好的用户体验。作为领有如此宏大用户群体的平台，对编码方案的降级会极其审慎，因而在评估任何新的编码方案时，Hudl都会思考三个问题：①此编码方案的性能是否足够优良？②须要设置多大的码率能力达到目标品质程度？③针对体育运动场景是否有编码优化策略？④是否可能缩小计算资源的耗费？由此，Hudl联合自动化品质评估工具，对多项编码方案进行了比照评估，其中包含VideoLAN x264、MultiCoreWare x265、微帧的WZ264及WZ265编码引擎、以及其余多家商业H.264、H.265编码器。为了更贴近Hudl的应用场景，采纳的测试视频蕴含了不同品种静止视频、不同拍摄角度和间隔的静止视频、室内\室外及一天内不同工夫不同光照的视频、不同等级噪声的视频。经最初查看测试后果，Hudl惊喜地发现WZ264和WZ265编码引擎在各项指标上都胜利碾压了其余编码方案，只有微帧的编码器不须要通过就义画质来降低码率，且在大幅降低码率的同时，VMAF等主观品质评估指标都有了显著的进步，与此同时微帧的编码方案可能大幅节俭计算资源，正合乎Hudl绿色节能的理念。如下图所示，在典型篮球比赛场景，WZ265相较于Hudl原有H.265编码方案，在获取更低码率下的同时画质更加清晰，如球衣号码、球场划线等要害感兴趣区域的清晰度有了显著晋升，这有助于分析师及平台工具进行检测，为教练及运动员带来更高效的训练领导。正如Hudl所说的，“应用微帧视频编码引擎给平台带来的改良是微小的，降低码率意味着节俭了大量的存储空间，同时还为平台内的教练和运动员提供了更好的视频品质”。Hudl可能在公开平台上论述最实在的应用反馈，对微帧而言无疑是极大的必定与贬责。自2020年，微帧在寰球市场取得了首批标杆客户，目前为止服务客户已笼罩中国、美国、欧洲、印度、新加坡、菲律宾等10+个地区，每月解决视频超8亿分钟。在海内市场，微帧凭借夯实的技术实力，一步步过关斩将，陆续取得了BlueJeans、Hudl、Rakuten/Viki, Verizon、Cloudinary、Josh、ShareChat等头部企业的认可，再次印证了微帧科技全球化的服务能力与当先寰球的技术实力。不卑不亢、不畏惧艰难，微帧科技定与时俱进、继续开拓创新，为寰球提供更高效更高质量的视频服务！

关于视频编码:微帧自研客观评价模型与主观DMOS分数拟合的分享与实用性探讨

去年咱们发过一篇文章《综合多项指标评估视频品质，能力更靠近主观感触》，指出了不同主观评估指标的“喜”与“忧”，并示意“在日常评估视频品质时，单看一组指标数据容易产生误差，需综合多项指标，能力更靠近主观感触”，失去了业内泛滥同仁的认同。但文中没有谈及人眼间接观测的主观品质评估，是因为主观评估的工夫老本极高、观看环境要求刻薄、存在个体差异、且无奈实时监测，不适宜在日常中做编码器的视频品质评估规范。主观评估办法的诞生，就是为了精确化形容人眼的主观感触。那么，主观评估办法的准确性，如何掂量？主观指标体现很好，主观感触就肯定好吗？尽管主观评估办法是让计算机尽量从人的主观视角登程来预测特定视频的评分，但不同主观评估指标与主观感触的合乎水平差距不同，因而须要通过主观评估模型与主观评估DMOS分数的非线性拟合后果，基于预测的准确性、一致性、稳定性、枯燥性来掂量该主观评估办法的好坏。 · 准确性：指主观评估打分和主观评估指标分数的相似性；· 一致性：指不应仅对某种类型的视频/图像体现良好，而应该对所有类型的视频/图像都能够体现良好；· 稳定性：指对同一视频/图像每次评估的后果数值应该雷同或误差在可接管的范畴内；· 枯燥性：指评估分数应该随DMOS分的增减出现相应的单增或单减。实际上，在日常实操过程中，主客观之间拟合的重要性不容小觑，除了可能掂量一个主观评估指标自身的好坏，更能帮忙咱们全方位地评估画面质量，使得各主观指标的主观感触趋于对立；另外，也能帮忙咱们为参数设置提供根据，在均衡压缩率与画质时，便于决策。接下来就向大家分享一下微帧在日常训练中所做的拟合办法，并探讨一下其中的实用性。主观品质评估主观评分个别是由均匀主观得分(mean opinion score, MOS)或均匀主观得分差(difference mean opinion score, DMOS)来示意。 MOS，形容的是受损视频序列的均匀主观得分，是通过对观察者的评分归一化来判断图像品质。 $$MOS=\frac{1}{N}\sum_{i=1}^{N}S(i)$$ 其中，N为参加评分的人数，S(i)为第i集体的评分 DMOS，形容人眼对无失真图像和有失真图像评估得分的差别取平均值，它更贴切的形容受损视频和原始视频的差别。 $$DMOS=MOS_{src}-MOS_{dst}$$ 微帧依据日常训练做的拟合办法：映射函数个别状况下主观指标与主观指标都是枯燥函数，所以须要做一个映射函数，使得主观分尽可能与主观分靠近，记主观分为x，主观分为y，也就是拟合某种函数关系： $$y=f(x;p)$$ 其中p为待拟合的参数 f(x;p)通常有3种模式：多项式、分式或者带一次项的Logistics曲线。因为Logistics曲线的拐点较少，数值稳定性要好于多项式和分式，所以个别都是用其进行拟合，其模式如下： $$f(x)=a\tanh(kx+u)+bx+c,\quad k>0$$ 其中tanh(x)为双曲正切函数 $$tanh(x)=(e^x-e^{-x})/(e^x+e^{-x})$$ 主观指标与主观指标的映射个别要思考如下几个束缚： 1）误差最小化这是所有函数拟合都须要思考的一个最根本的约束条件，就是要拟合后的函数值尽可能迫近主观分，写出公式的模式： $$E_{data}=\sum_{i=1}^n(f(x_i;p)-y_i)^2$$ 2）枯燥性统一个别状况下咱们须要主观分满足枯燥递增或枯燥递加，这个是很容易了解的，像SSIM这种主观分越大主观越好，对应的就是枯燥递增函数；或是MSE这种主观分越小，主观越好的就是枯燥递加。对于枯燥递加的状况只须要把主观分取个相反数就变成了枯燥递增，所以只须要思考枯燥递增就能够了。写成公式的模式就是： $$f_x(\hat{x}_k;p)\ge 0$$ $ 其中\hat{x}_k的第k个采样点 $ 对于多项式或分式模式的拟合函数，极值点个别不好间接求解，简略的办法就是在定义域内平均取点代替极值点，取的点越多计算量越多，准确性也越高；对于Logistics曲线则更为简略，因为其导函数为钟形曲线，所以其导数的最小值只会在两个端点，或是 x=-u/k 处取到，只有保障这3个点的导数都不小于0即可。 3）端点一致性端点一致性就是思考两种极其的状况主观分和主观分应该是一样的（主观分和主观分都提前归一化到[0，1]区间），也就是主观分为0或1的时候，对应的主观分也应该是0和1，写成公式的模式就是： $$\begin{cases}f(0;p)=0\\[1.5ex]f(1;p)=1\end{cases}$$ 总体误差函数最终总体误差函数为一个带束缚的模式： $$\min\quad E=\sum_{i=1}^n(f(x_i;p)-y_i)^2\\ \quad \quad \\s.t.\quad f_x(\hat{x}_k;p)\ge 0,\quad k=1,2,..\\ \\f(0;p)=0\\ \\f(1;p)=1\\$$ 上式是一个带束缚的最小二乘问题，能够转换为无约束的模式，而后用非线性最小二乘的求解算法进行求解。应用上述办法对开源数据集进行拟合的后果：公式及图例中的DMOS理论=100 - DMOS规范，为了不便表白，均用DMOS代替。散点图中散点越集中，越靠近拟合曲线，阐明主观模型与主观感知的一致性越好。① SSIM - DMOS数据集采纳的LIVE-release2中的jpeg和jpeg2000，拟合公式如下（上面两个公式均可）： ②PSNR - DMOS数据集采纳的LIVE-release2中的jpeg和jpeg2000，拟合公式如下（上面两个公式均可）： ③VMAF - DMOS数据集采纳的LIVE-release2中的jpeg和jpeg2000，拟合公式如下（上面两个公式均可）：最初总结并探讨实用性，表明几个观点： ...

关于视频编码:iOS-VideoToolbox-硬编指南

引言调用零碎 VideoToolbox 的 API 实现一个硬编很容易，认真看看文档、理解 API 的应用实现一个基本功能置信难不倒大家。但理论工作中有许多细节，一不注意就会掉坑里，甚至有些系统性问题难以解决。本文一方面会介绍必备的基础知识，带大家对编码有一个根本的意识，另一方面也会分享直播 SDK 在 VT 硬编实现上遇到的问题和解决方案，心愿能帮忙到大家。必备基础知识帧概念I 帧（帧内编码图像帧）即帧内（Intra）图像，采纳帧内编码，不参考其它图像，但可作为其它类型图像的参考帧。P 帧（预测编码图像帧）即预测（Predicted）图像，采纳帧间编码，参考前一幅 I 或 P 图像，用作静止弥补。B 帧（双向预测编码图像帧）即双向预测（Bi-predicted）图像，提供最高的压缩比，它既须要之前的图像帧( I 帧或 P 帧)，也须要起初的图像帧( P 帧)，采纳静止预测的形式进行帧间双向预测编码。工夫戳PTS：显示工夫戳，次要用于视频的同步和输入，在渲染的时候应用，在没有 B frame 的状况下 DTS 和 PTS 的输入程序是一样的。DTS：解码工夫戳，次要用于视频的解码，在解码阶段应用。CTS = PTS - DTS。示例： gopIBBPBBP显示程序1234567解码程序1342675PTS1234567DTS1342675GOP & ReferenceGOP：一段时间内图像变动不大的图像集咱们就能够称之为一个序列，gop 就是一组视频帧，其中第一个 I 帧咱们称为是 IDR 帧。 Reference：参考周期，指两个 P 帧之间的间隔，iOS 硬件编码器中无奈指定。 IDR一个 GOP 的第一个帧称 IDR 帧（立刻刷新帧），IDR 帧的作用是立即刷新，使谬误不致流传。从 IDR 帧开始, 从新算一个新的序列开始编码。而 I 帧不具备随机拜访的能力，这个性能是由 IDR 承当。IDR 帧会导致 DPB (DecodedPictureBuffer 参考帧列表——这是关键所在）清空，而 I 不会。 IDR 帧肯定是 I 图像，但 I 帧不肯定是 IDR 图像。一个序列中能够有很多的 I 帧图像，I 帧图像之后的图像能够援用 I 帧图像之间的图像做静止参考。 ...

关于视频编码:字节跳动多媒体实验室联合-ISCAS-举办第二届神经网络视频编码竞赛

近日，ISCAS 发表将于 2023 年 5 月 21 日 - 5 月 25 日在美国加州蒙特雷举办。作为 IEEE 旗下电路与零碎学会旗舰会议，本届 ISCAS 将持续联结字节跳动多媒体实验室，举办第二届神经网络视频编码比赛。图：ISCAS 2023 官网截图 ISCAS 全称为电子电气工程师学会电路与零碎国内研讨会，是世界上高度沉闷的电路与零碎实践、设计和实现畛域钻研人员的年度盛会。 2021年，ISCAS 举办了首届神经网络视频编码比赛，字节跳动作为独家资助机构反对了比赛举办。行将于 2023 年举办的第二届神经网络视频编码比赛仍是由字节跳动资助反对。第二届比赛将设置两个最佳性能奖，一个最佳创意奖，每个奖项设置 5000 美元的奖金。图：第二届神经网络视频编码比赛工夫节点目前，第二届神经网络视频编码比赛的工夫节点已颁布，据颁布信息看，第二届比赛参赛者的论文须要在 2022 年 10 月 24 日前提交，终稿论文提交截止工夫是 2023 年 2 月 4 日，比赛后果将在 2023 年 ISCAS 会议期间正式颁布。第二届比赛的主题，采纳了与去年雷同的“神经网络视频编码”。比赛组织方示意，设置统一的比赛主题，除了容易追踪该畛域在过往工夫内的倒退，也不便与往届的后果进行比照。据介绍，两届较量的主题尽管雷同，但第二届比赛升高了在评估准则上的束缚，参赛者提交计划的码率点和指标码率点的偏差，从第一届的 10% 放宽到了 20% 。目前，第二届神经网络视频编码比赛已开启报名，欢送学术界和工业界参赛者与工作人员李博士（yue.li@bytedance.com）获得沟通。更多比赛信息：https://iscas2023.org/authors...

关于视频编码:Chrome已实现对H265HEVC的硬解支持

H.265/HEVC作为ITU-T VCEG继H.264/AVC之后所制订的新视频编码标准，可能在无限带宽下传输品质更高的视频。超高清视频的遍及与风行，使得各大网站不得不用H.265来代替老旧的H.264编码做视频传输，当应用H.265规范的视频时，浏览器对于H.265的反对不敌对始终是用户及厂商们的利用之痛。下图是支流浏览器对H.265/HEVC的原生反对状况（最新），其中红色代表不反对，绿色代表反对，黄色代表可通过硬解码反对或在特定的设施上反对。能够看出，H.265/HEVC在浏览器端并不是一个失去广泛支持的计划。反对HEVC/H.265的浏览器版本：· Safari 13 - 15.5 公布于2019年9月19日-2022年5月17日· Safari 15.6公布于2022年7月20日· Safari 16.0 - TP· Safari & Chrome for iOS 11 - 15.5 公布于2017年9月19日-2022年5月16日· Safari & Chrome for iOS 15.6公布于2022年7月20日· Safari & Chrome for iOS 16.0 可通过硬解码反对：· Edge 12 - 18 公布于2015年7月29日-2018年11月13日· Edge 79 - 104 公布于2020年1月15日-2022年8月5日· Edge 105 公布于2022年9月1日· Safari 11 - 12.1公布于2017年9月19日-2019年3月25日· IE 11 公布于2013年10月17日据报道，以下几个浏览器能够在某些具备硬件反对的Android设施上显示：· Chrome 104 for Android 公布于2022年8月3日· Samsung Internet 5 - 17.0 公布于2016年12月16日-2022年5月5日· Samsung Internet 18.0 公布于2022年8月5日· Opera 64 for Android 公布于2021年2月16日· Android 5-6x WebView:Chromium 105 公布于2022年9月5日 ...

关于视频编码:基于-SPICE-协议的硬编推流整合方案在云游戏中的应用

背景随着虚拟化技术如模拟器，容器化等技术等倒退，在安卓云游戏/云手机场景中，能够在服务宿主侧虚构出更多更小颗粒度的 Android 实例。其中比拟外围的技术是图形虚拟化技术，如何最大限度利用宿主侧的 GPU 资源进行渲染和编码，不思考软编等利用 CPU 资源进行渲染编码是因为效率带来的提早问题。 Linux 图形栈先看一个比拟通用的 linux 图形栈： X 协定：比拟早的协定，X server 间接治理 GPU 内的 framebuffer 和 X Client 提交命令，通过 XClient（Xlib 或 XCB）向 Xserver（Xorg）提交相干命令实现，且有很多扩大协定，然而弊病须要一个额定的 Windows Manager 来解决多个利用。目前曾经被 Wayland 这种扩大协定取代，composer 解决输出，窗口，合成显示等性能。GLX：因为是用来做间接渲染，做了两个工作：1）将 OpenGL 和 X window API 绑定 2）通过 X server 转发 GL 的调用。实质还是 X 协定那一套。FB driver：历史遗留显示子系统，提供了 Framebuffer 获取，图像操作原语，电源治理等性能。OpenGL：对立的 3D 图形渲染 API 接口，各支流厂商（Intel、 Nvidia、AMD、Qualcomm 等）都反对的接口，支流实现的是开源的 mesa。Mesa 3D 是其最支流的开源实现，值得注意的是 Mesa 不仅反对 OpenGL，还反对 Vulkan, Direct 3D 等渲染 API。DRM：Direct Rendering Manager, 目前支流的 GPU 显示子系统，用户态应用 libDRM 的 DRM API 来操作 DRM 设施，对 GPU 通过 ioctl 等标准文件操作来通信，实现: ...

关于视频编码:NBA赛事直播超清画质背后阿里云视频云窄带高清20技术深度解读

在半月前完结的NBA总决赛中，百视TV作为全网惟一采纳“主播陪你看NBA”模式的直播平台，以“陪看型”赛事讲解来面对内容差异化竞争。与此同时，百视TV还使用了“窄带高清2.0”直播转码技术，为观众在赛事画面质量上打造更进一步的体验晋升。简略来说，“窄带高清”是一套以“主观体验最好”为优化指标的视频编码技术，让咱们看一张比照图，感受一下画质晋升成果：上图为主播推流原画，下图为修复后画面上图上半局部是主播推流的原画，下半局部是应用窄带高清2.0技术转码后的画面。能够看到，通过窄带高清2.0 技术转码，球衣上的数字、地板上的英文字母、篮网、边界线等变得更加清晰。此外，画面整体清晰度都有显著的晋升，甚至地板纹理和场外观众轮廓都会肉眼可见变得更加清晰。下文将深度解读为NBA直播赛事带来超清画质背地的“窄带高清”技术原理。 1. 窄带高清技术阿里云早在2015年就曾经提出了“窄带高清”的概念，在2016年正式推出窄带高清技术品牌并进行产品化。窄带高清代表的是一种老本与体验相和谐的视频服务理念，是以人眼主观感触最优为基准的视频编码技术。 “窄带高清”示意图窄带高清实质上是一个品质晋升和压缩的问题，次要指标是谋求品质、码率和老本的最优平衡。在这个方向有两个版本，即窄带高清1.0和窄带高清2.0（以下简称“窄高”）。窄高1.0是平衡版，次要作用是如何用起码的老本去实现自适应的内容解决和编码，达到节俭码率的同时实现画质的晋升。所以，在窄高1.0充分利用编码器里的信息帮忙视频解决，即用老本很小的前解决办法实现低成本的自适应内容解决和编码。同时，在编码器里，次要是基于主观的码控。窄高2.0和窄高1.0相比会有更多的、更充沛的和复杂度更高的技术来保障自适应能力，包含JND自适应内容编码、ROI编码、SDR+、更天然的细节加强等。同时，在窄高2.0里减少了更实用于高热内容的修复能力，在品质晋升的同时，码率节俭也更多。 2. 赛事直播的挑战以后，窄带高清技术在长视频、短视频、泛娱乐、在线教育、电商直播等场景有着广泛应用。相较于长视频和电商直播等场景，NBA篮球赛事直播因为画面切换快、运动性很强，往往须要高码率流。然而，高码率的直播尤其是NBA较量直播在跨国传输中可能会受网络品质稳定，造成音视频卡顿及提早。为了保障直播的稳定性和基于播放端的丝滑观赛体验，百视TV抉择了较小码率的源流。于是，面临实在场景下的多个挑战：挑战 1：低码流导致赛场画面含糊失真相比于高码率流的画面画质，低码率流会有较显著的压缩失真、细节含糊和弱纹理失落。对于篮球赛事场景来说，就会造成如球星球衣上的文字含糊、篮网含糊、边界线及高空上文字边缘毛刺多等诸多画质景象，导致观看体验不佳。挑战 2：剧烈运动画面的“去交织解决”残留除了低码率流带来的压缩失真细节含糊外，体育比赛场景还有一个特有的问题，即原始信号个别是隔行扫描采集的，在互联网传输时首先须要做“去交织解决”，然而对于剧烈运动画面，很难保障有完满的去交织解决，通常会有一些“交织”没有去除洁净，造成一些残留噪声。挑战 3：数次转码后的画面损失此外，基于企业客户以后业务逻辑，直播视频从拍摄到终端用户，经验了数次转码，每一次转码，都会带来肯定的压缩失真和画质损失。为了更好地均衡直播流畅性、稳定性和高清画质体验，百视TV在NBA决赛转播过程中先抉择绝对较低的码率实现稳固的跨国传输，将源流拉到国内后再做修复，在此过程中，百视TV便应用了阿里云视频云的“窄带高清2.0”技术。 3. 针对体育赛事的解决方案针对体育赛事视频，如果简略地应用阿里云线上惯例窄带高清转码，存在两大弊病：第一，难以修复体育赛事视频中的特有噪声，同时还有可能把一些噪声放大，从而影响观看体验。第二，惯例窄带高清无奈对篮球场景的特有元素比方球衣上数字、篮网、边界线等实现完满修复。为此，窄带高清2.0针对体育赛事场景，对已有的原子算法能力进行了优化组合，同时局部算法针对篮球赛场景进行了定向调优。最终采纳的转码流程如下图所示：直播转码算法流程 4. 关键技术解析4.1 视频解决极致修复生成后面已提到咱们输出源自身画质不高，同时还通过了屡次转码，因而第一个解决步骤为修复生成，其次要目标是修复视频中的多种瑕疵，比方压缩块效应、压缩伪影、边缘毛刺、去交织后残留噪声、含糊等，同时生成一些因压缩失落的细节纹理。学术界有不少利用深度学习去专门做去压缩失真、专门做去模糊的钻研工作。比方晚期做图片去压缩的ARCNN[1]，做视频去压缩的MFQE[2]，晚期端到端去模糊算法DeepDeblur[3]。比拟新的办法有：自带压缩水平预计的图片去压缩算法FBCNN[4]，基于可形变卷积的视频去压缩算法STDF[5]，无需非线性激活的NAFNet[6]等等。这些算法大部分都是针对繁多工作结构数据集和设计网络结构进行模型训练，失去的模型只能解决繁多进化类型，然而在这次百视TV NBA较量直播转码中，咱们要解决的视频同时蕴含多种“进化降质”，除了典型的视频压缩，还有相机失焦含糊/静止含糊，去交织后残留噪声等。图片去压缩算法ARCNN的网络结构视频去压缩算法MFQE的网络结构端到端去模糊算法DeepDeblur的网络结构为了解决上述诸多“进化”，一种形式是针对每一种进化训练一个模型，而后顺次运行这些模型。这种形式的长处是每个模型的工作变得比较简单，不便结构数据集和训练，但在理论应用时成果并不好，因为其余进化会带来很大的烦扰，导致算法性能急剧下降。于是，咱们采纳了第二种形式，即用一个模型来解决多种进化。第二种形式的益处是能够获得绝对更好的解决成果，难点在于训练数据的结构比较复杂，对网络容量的要求较高，须要同时兼顾多种进化形式，这其中还能够有多种排列组合。在训练数据结构方面，咱们借鉴了图像超分畛域的BSRGAN[7]/Real-ESRGAN[8]和视频超分畛域的RealBasicVSR[9]中的数据进化形式，同时增加了一些体育赛事直播场景特有的进化模式来模仿场地边界线处的锯齿、白边等瑕疵。在网络结构方面，为了缩小计算量，咱们采纳了单张图片解决形式，能够采纳经典的ESRGAN[10]模型或常见的UNet[12]构造，亦或ResSR[13]提到的VGG-Style构造。在损失函数方面，思考到须要修复因各种进化失落的细节，除了应用常见的L1/L2 loss外，还应用了percectual loss 和 GAN loss。 BSRGAN提出的多种图像进化形式基于GAN的生成网络的一个次要问题是鲁棒性和时域连续性不够好。鲁棒性问题是指是否稳固地生成比拟天然的纹理，比方有些GAN模型有时生成进去的细节纹理比拟奇怪不天然，尤其是当在人脸区域生成一些奇怪纹理时会比拟恐怖。时域连续性问题是指相邻帧生成进去的纹理是否保持一致，如果不统一则会产生闪动景象，升高观看体验。为了解决鲁棒性问题，尤其是人脸区域鲁棒性，咱们借鉴了LDL[14]中通过检测fine-scale details区域并加以额定惩办来晋升fine-scale details生成成果的思维，通过人脸区域分割失去人脸区域，对人脸区域生成成果施加额定的惩办来晋升人脸区域细节生成的鲁棒性。人脸区域分割针对时域连续性问题，咱们采纳了TCRnet网络来作为额定监督信号来晋升。TCRnet网络本来用于超分工作，通过简略革新可用于修复工作，该网络用IRRO偏移迭代修改模块联合可变形卷积，来进步静止弥补的精度，同时利用ConvLSTM进行时序信息的弥补避免造成信息误差，从而晋升时域连续性。 TRCNet网络结构上面两张图比照了源流和修复后成果。从第一张比照图能够看出，修复后地板上的字母GARDEN的边缘变得十分清晰锐利，边界线、球员轮廓及球衣上数字22也变得更清晰，此外地板纹理也失去修复。第二张比照图也能看到场外观众轮廓和衣服上线条变得更清晰，此外本来扭曲成锯齿状的地板边界线也变直了。模型减速为了取得极致修复生成成果，基于深度学习的AI算法通常是首选算法。但深度学习算法的一个问题是计算量大，而对于视频修复生成这种low level视觉工作来说，计算量比一般high level视觉工作还要大很多。 ...

关于视频编码:微帧libwz265解码器更高效更稳定

视频规范H.265/HEVC于2013年正式推出，其在保留视频规范H.264/AVC原有的某些技术同时进行了更多翻新和改良，相比H.264能够节俭更多的码率，仅需更低带宽即可播放更高质量的视频，这也是实现智能设施间接在线播放超高清视频的原由之一。从摄像头采集的视频，通常是YUV格局的原始数据，将一帧帧视频划分成多个方形的像素块顺次进行解决，进行帧内/帧间预测、正变换、量化、熵编码等等算法，失去视频码流，这是编码的过程。而为了在各设施上进行显示，则须要进行反量化、反变换、环路滤波等等算法，将视频码流转换为YUV格局数据，将存储在介质中的码流重建为可见的视频信号，这便是【解码】的过程。微帧自研H.265解码器libwz265在稳定性、鲁棒性等方面具备独特劣势，通过一直优化，libwz265顺利通过了Fuzzer test。Fuzzer test，中文叫做含糊测试或随机测试，其本质上是一种基于随机输出的自动化测试技术，常被用于发现解决用户输出的代码中存在的bug和问题。 libwz265通过了含糊测试，意味着无论应用什么样的数据，无论提供的文件蕴含何种内容，都不会造成编码器的解体或宕机，这也确保了视频解码效率。速度上，libwz265解码器也具备肯定劣势，通过多核并行、汇编优化等伎俩进步了解码速度，是开源解码器OpenHEVC的两倍多，为了确保此论断的真实性，微帧进行了一系列试验，以下内容为实验所得数据。试验阐明【试验所用内容】 5个不同类型的视频 4种不同的分辨率：360P、540P、720P、1080P 【数据代词阐明】 libwz265：微帧Visionular自研H.265解码器 OpenHEVC：H.265开源解码器 THR 1：单线程 THR 2：双线程 THR 4：四线程 fps：一秒钟内解码的帧数 mem(kB)：所用内存 CPU(%)：CPU的使用率 speed libwz265 vs OpenHEVC：libwz265与OpenHEVC的速度之比不同分辨率下的比照①360Pspeed libwz265 vs OpenHEVC均匀为 223.57%,即 libwz265的速度约为OpenHEVC的 2.2 倍 ②540Pspeed libwz265 vs OpenHEVC均匀为 209.13% ,即 libwz265的速度约为OpenHEVC的 2.1 倍 ③720Pspeed libwz265 vs OpenHEVC均匀为 213.34%,即 libwz265的速度约为OpenHEVC的2.1 倍 ④1080Pspeed libwz265 vs OpenHEVC均匀为 231.45%,即 libwz265的速度约为OpenHEVC的 2.3 倍

关于视频编码:阿里云视频云人脸生成领域最新研究成果入选-CVPR2022

CVPR（IEEE Conference on Computer Vision and Pattern Recognition）作为计算机视觉和模式识别畛域的顶级会议，在寰球具备极高的权威性。目前在中国计算机学会举荐国内学术会议的排名中，CVPR为人工智能畛域的A类会议。凭借在人脸生成畛域的扎实积攒和前沿翻新，阿里云视频云与香港科技大学单干的最新研究成果《基于生成反抗网络的深度感知人脸重演算法》(Depth-Aware Generative Adversarial Network for Talking Head Video Generation)被CVPR2022接管。而最新一届CVPR 2022也将于2022年6月19日-24日在美国路易斯安那州新奥尔良举办。近年来，人脸重演（face reenactment/talking head）受到了越来越宽泛的关注，现有的人脸重演办法重大依赖于从输出图像中学习到的2D表征，而很少引入3D几何信息进行领导和束缚，导致生成人脸的构造、姿势和表情不够精确，泛化性较差，难以大规模利用于理论场景中。阿里云视频云技术团队与香港科技大学联结提出一种具备深度感知的人脸重演算法。该算法的呈现，是人脸重演畛域的重大翻新，其学术和利用价值是值得期待的。尤其是在视频云畛域，该算法的利用无望使得音视频编解码的效率有着极大的冲破。算法应用一种自监督的深度预计模型，无需任何3D标注，即可从视频中取得像素级深度图，进而领导人脸关键点的检测和运动场的合成。在人脸生成阶段，利用该深度图能够学习失去跨模态注意力图，以捕获更多动作细节并修改人脸构造。因而，该项技术为在特定场景下的视频编解码提供了新的解决方案。例如在视频会议场景中，咱们的模型学习应用一张蕴含指标人物外观的源图像和一段驱动视频来合成人物头部谈话的视频。咱们的静止是基于一种新的关键点表标注进行编码的，咱们紧凑的关键点标注使视频会议零碎可能实现与商业 H.264 规范雷同的视觉品质，同时仅应用十分之一的带宽。即大幅度降低带宽要求时，仍可实现较高画质和低提早。除此之外，该项技术可广泛应用于会议、直播场景或者元宇宙、虚拟人等互动娱乐场景中，可满足各场景中图片视频化的需要。即依照料想动作，驱动各类格调的人脸图片取得对应的视频。可见，利用该技术门路的冲破，灵便地利用到热点行业的业务门路中，将播种一股不可估量的助力。「视频云技术」你最值得关注的音视频技术公众号，每周推送来自阿里云一线的实际技术文章，在这里与音视频畛域一流工程师交换切磋。公众号后盾回复【技术】可退出阿里云视频云产品技术交换群，和业内大咖一起探讨音视频技术，获取更多行业最新信息。

关于视频编码:微帧ROI视频智能编码基于人眼感兴趣区域实现极致观感体验

"The world is too much with us". 为了更好地意识这个纷繁复杂的世界，人类进化出了一套独特的视觉零碎——地方凹成像零碎，即当咱们看货色时，眼睛聚焦的中央会看得更加清晰，而对于四周区域只能看个大略，这种成像形式既能让咱们看清要害物体的细节，又能具备较大的视线。例如，人在开车时，既能看清后方的路，又能兼顾两侧，这就是地方凹成像零碎的功绩。后方的路线和车辆就是人眼主观关注与感兴趣的区域，而对于周边的蓝天、草地等非关注区域，人眼并不会产生过多关注。正是地方凹成像零碎让人类领有了非凡的视觉注意力机制，在解决简单视觉信息时，可能迅速将注意力和神经计算资源集中到场景的重要区域上。因为这样的人眼视觉特殊性，人们在观看视频及图像时，往往会心愿主观关注及感兴趣区域可能领有较高的清晰度，而对于非关注区域，只须要达到根本视觉要求即可。 ROI视频编码技术ROI：Regions of Interest，感兴趣区域基于主观品质衡量标准，在视频编码过程中，咱们能够对感兴趣区域进行低压缩比，甚至是无损压缩编码，以取得高质量的重建图像，而对非关注区域采纳较高压缩率，这就是ROI视频编码技术。微帧ROI (region of interest) encoding是一项基于感兴趣区域的视频编码技术，即对图像中感兴趣的区域升高量化参数值，从而调配更多码率以晋升画面质量，而对不感兴趣的区域则进步量化参数值，从而调配更少码率，在不损失图像整体品质的前提下，升高视频码率。右图：经微帧ROI智能编码解决后，码率不变，画质大幅晋升 ROI视频编码码率调配的基本思路是：在视频编码前，对输出的视频场景进行视觉感知剖析以确定感兴趣区域。在编码过程中，通过调整编码参数，为感兴趣区域调配更多码率，使其领有更好的视觉品质，而其余区域则相应缩小调配的码率，因其误差敏感度较低而对整体视频品质影响较小。在同样的码率限度下，这种码率调配计划的编码后果将会比传统的调配码率的后果有更好的主观视觉品质。几类不同的感兴趣区域检测1）核心区域屏幕两头或固定其余中央的ROI区域，此类型ROI是基于教训的判断，在失常视频的拍摄手法上通常会将最重要的内容放在画面最两头。 2）人脸人脸是人最显著的特点之一，在视频中显著地位呈现的人脸会很容易被观众留神，因而人脸是最显著的主观敏感区域。对此ROI区域的编码须要先精确定位人脸，再做针对性地画质调优以及编码参数调优。微帧智能转码零碎反对标准版和超低复杂度版本人脸检测，其中标准版解决1080p视频均匀在3ms每帧以内；超低复杂度版本在1ms每帧以内。适配秀场、综艺、安防、影视等蕴含人脸的场景。如下图所示，标准版人脸检测即便在多人脸、遮挡、侧脸、小脸等条件下也能取得较好的检测后果。 3）人眼聚焦区域（主观感兴趣区域）人眼聚焦区域数据集个别是通过眼动仪获取。微帧智能转码零碎反对标准版和超低复杂度版人眼聚焦区域检测。 3.1 标准版聚焦区域检测标准版聚焦区域检测，采纳眼动仪失去训练样本，无效定位人眼汇集区域，适配绝大部分场景。 3.2 超低复杂度版聚焦区域检测超低复杂度版聚焦区域检测，1080P视频CPU单核运算工夫在1ms每帧以内，复杂度根本忽略不计。 4）各个块自身的主观敏感度 x264默认的自适应量化（AQ），仅根据方差大小作为评判根据，对于方差大的块施以更大的量化因子。方差大小的鲁棒性有余，甚至都不能很好地判断平滑水平。如图示例的一维信号，左图的方差比右图更大，事实上左图是比拟平滑的。以RaceHorses为例，依照x264中的AQ技术，第一行宏块，正好绿色草丛背景块的方差比拟小，而涵盖了帽子、人脸、人眼的宏块方差比拟大，导致主观敏感的人脸/人眼被施加了较大的delta QP。微帧智能转码零碎辨别了易被人眼关注的规定纹理，加以爱护，在其余编码条件雷同的条件下，获得明显改善。 5G时代的到来，人们对于视频品质的要求愈发低落，视频码率也呈现出成倍增长的趋势，这给视频经营平台短期内的CDN老本、用户观看体验等方面带来了微小挑战。面对这样的挑战，人们不得不持续优化视频编码标准，以进步编码效率。除了一直推出新视频规范之外，ROI编码等AI技术也变得尤为重要。微帧屡次主观测评显示，ROI编码与传统编码相比，主观整体视觉效果都有显著晋升，在较低带宽的环境下尤为显著。ROI编码技术既可能取得冀望的高质量画面，又放弃了较低的码率，更好地解决了码率与画质之间的矛盾。

关于视频编码:前Cisco思科首席工程师Webex-AV1第一人Thomas加入微帧科技

近期，前Cisco思科首席工程师Thomas Davies已正式退出全球化视频编码及视频AI提供商——微帧科技（Visionular）。作为寰球顶级视频技术专家、HEVC/H.265、AV1规范的次要制定者之一，Thomas领导开发了Webex AV1实时高清视频编码器，并在视频会议畛域率先利用，被称为“Webex AV1第一人”！退出微帧科技（Visionular）之后，他将持续致力于AV1实时视频编解码技术的翻新和研发。Thomas Davies，毕业于牛津大学，取得数学硕士，之后又取得了英国最富盛名的研究型大学——华威大学的数学博士；先后于英国广播公司BBC（2000年1月至2011年2月）、Cisco思科（2011年3月至2021年12月）各任职11年，而后于2021年年底退出微帧科技（Visionular）。在退出微帧科技（Visionular）之前，Thomas是Cisco思科的首席工程师，作为Webex寰球英国分部（伦敦）、美国分部（硅谷）、中国分部（杭州、苏州）的第一技术领导人，领导寰球Webex技术团队开展工作。Cisco思科为AOM凋谢媒体联盟的开创成员之一，在AV1规范制订期间，Thomas作为次要贡献者，参加了AV1外围工具的制订，包含：entropy coding design（熵编码设计），quantization（量化）, error resilience（专门用于RTC的容错鲁棒性工具），以及 bitstream syntax（外围码流语法制订）。此外，Thomas还参加了HEVC/H.265规范制订过程，以及实时HEVC/H.265和H.264编解码器解决方案的开发和优化。除了对规范做出奉献，Thomas还为思科网真产品（Cisco TelePresence products，例如IX5000和MX700/800）开发HEVC编码器和解码器、开发和优化MCU利用的大规模转码。微帧科技联结创始人Zoe Liu与Thomas的合影 Thomas的退出，将减速微帧Aurora-AV1的技术创新，助力微帧科技（Visionular）成为寰球领跑者。微帧科技（Visionular）早在2019年年初率先公布了寰球首款AV1商用编码器“Aurora-AV1”，不仅对AV1编码器做了全面优化，同时还采纳了AI+编码的多项簇新技术，现已陆续利用于点播、直播、RTC等各类视频场景。其中，Aurora-AV1的实时档在2020年落地多家国内外出名RTC平台，Aurora-AV1的点播档在2021年被寰球TOP3之一的PGC平台利用上线。正是因为Aurora-AV1成果好+速度快“并行不悖”的独特技术劣势，失去了泛滥头部企业的认可，成为了AV1视频编码的寰球领跑者。置信Thomas的到来，可能帮忙微帧科技（Visionular）实现更多技术创新，强化技术劣势，放慢AV1在更多利用场景的实现及落地，从而推动AV1在寰球视频畛域的倒退，为用户提供最极致的视觉体验！

关于视频编码:从解码复杂度思考AV1编码器优化

AV1（Alliance for Open Media Video 1）是由AOM（Alliance for Open Media，凋谢媒体联盟）制订的一个开源、免版权费的视频编码标准。与它的前身VP9相比，AV1蕴含了100多个编码工具，大大提高了编码效率。以AOM推出的libaom和微帧科技研发的WZAurora为例，试验数据证实了AV1在编码效率上完胜H.265/HEVC、H.264、VP9。 AV1尽管编码效率高，但也给人们留下了编码速度十分慢的初印象。事实上，自AV1公布以来，开源社区就没有进行过对AV1编码器的编码效率和编码速度的综合优化。仅以开源AV1编码器libaom为例，从2019年1月到2020年4月，其编码速度进步了10倍（而不是10%），同时编码效率也进步了10%。 Zoe Liu在本次演讲中，从齐全簇新的视角探讨了对AV1编码器的优化。AV1规范到目前为止已推出2年4个月，硬件解码生态在逐渐拓展中，但当下还是以软件解码反对为主。Zoe Liu演讲中的AV1优化，指标是让AV1这款新的视频编码标准，在解码端以软件为次要解决方案的条件下，尽快进入实用阶段。一般来说，开发人员都是从进步编码效率和放慢编码速度两方面来优化和改良编码器。事实上，咱们还能够从解码器端的解码复杂度中来思考编码器的优化，这无疑是为AV1编码器的优化提供了一个新的思路。咱们能够尝试剖析解码器解码的复杂度，从中获取有价值的反馈，并依据这些反馈来设计咱们的编码器。一个优良的AV1编码器不仅可能足够好地均衡编码效率和编码速度，还应思考如何开释解码器的压力，以保障视频最终的晦涩播放。家喻户晓，目前最出名的AV1开源软件解码器为dav1d。dav1d受AOM赞助，由VideoLAN和 FFmpeg联合开发。目前的试验证实，dav1d相比所有其余AV1开源软件解码器，在解码速度以及多线程方面，体现了显著的劣势。为了评估AV1在挪动设施上的解码性能，咱们特地关注了dav1d在挪动端的解码功耗数据。挪动端除计算资源受限外，功耗是考量解码器优劣的重要指标。功耗过高，会重大影响电池的使用寿命，与此同时手机会发热，进一步会引起CPU降频，大大影响用户体验。因而咱们在几个典型的挪动设施上对dav1d、ffmpeg-h264、openhevc软件解码器做了测试，评估指标包含CPU使用率（%）、内存应用（MB）、电流（mA）、功耗（mW）、电压（mV）和温度（℃）。结果表明，在功耗方面dav1d处于ffmpeg-h264和openhevc之间，比ffmpeg-h264差，但比openhevc体现好。此外，咱们还与合作者一起收集了更多的dav1d解码性能数据，并重点关注dav1d在低端挪动设施上的体现。测试视频集包含720x536、960x480等多种分辨率。试验证实了，在低端挪动设施上，当编码码率较高时，实时解码将会是一个很大的挑战。如何通过优化编码器来升高解码的复杂度，是微帧始终思考的问题。 AV1提供丰盛的编码工具，这使得AV1不仅仅是一个免版税的编码标准，更是业界积攒的先进编码技术。也正因为对这些工具的驳回，使得编码的复杂程度晋升了很多，同时对解码器的复杂度也造成了很大的影响。例如Warped Motion，是AV1中第一次采纳仿射变换（Affine Transform）对简单的静止建模，超过了传统的二维静止矢量的概念，在编码和解码两侧，都须要从现有宏块和四周三个宏块的静止矢量中导出仿射变换的参数。解码器的复杂度远远小于编码器的复杂度，AV1中相似Warped Motion这样的规范工具一旦采纳，在解码器复杂度中感知度会十分强。因而，无论是打造编码器还是解码器，这都是一个全新的挑战。咱们优化AV1编码器，是心愿提速的同时放弃AV1的规范劣势。基于此，咱们对画质、码率、编码速度以及解码速度进行了综合优化,并在此基础上提出了DCA（Decoder Complexity Aware）的概念。利用CAE（Content Adaptive Encoding）+DCA的联结优化策略，在AV1当下只有软解反对的状况下，实现AV1在实用场景中的落地，使得视频最终用户能够尽早享受到AV1的规范劣势。举个简略的例子，AV1中宏块大小的宰割办法能够从4x4始终到128x128。咱们能够通过防止图像块被宰割得过大或过小，在保障足够好的编码效率的同时又能大大降低解码的复杂度，从而使解码器在低端设施上也可能进行实时解码。 AV1作为一款新的编码标准，其生态也在一直的建设和欠缺中。咱们很开心地看到，越来越多的视频厂商、硬件厂商发表反对AV1这一编码标准，AV1的利用越来越广泛。作为寰球当先的AV1商用编码器提供商，微帧科技也将继续优化WZAurora编码器，全力推广AV1的应用和落地，让更多客户享受到AV1带来的技术价值。

关于视频编码:微帧科技综合多项指标评价视频质量才能更接近主观感受

视频品质评估指标只是掂量画面质量的工具，单项指标的数值或高或低，都不应是视频工作者的最终目标。微帧始终都以晋升画质优化观看体验为次要指标，致力于应用最优的品质评估形式，提供最极致的画质成果。视频流量在整个互联网流量的占比每年都在高速增长，为升高视频存储老本和数据传输通道的负载，视频压缩规范及算法在一直踊跃开发和改良。视频品质的评估在其中也起着至关重要的作用，只管曾经倒退出了大量视频品质评估办法，但广泛接受度最高、最出名的评估办法还是经典的PSNR、SSIM以及VMAF。本文将浅谈一下这几类评估办法的概念，并将联合微帧在日常试验中所得的教训，重点聊一聊PSNR avg.MSE与PSNR avg.log，谁更胜一筹？以及VMAF的“喜”与“忧”。 PSNR（峰值信噪比）峰值信号的能量与噪声的均匀能量之比，实质的是比拟两张图像像素值差别，用处较广，目前仍作为对照其余指标的基线。PSNR的单位是dB，数值越大示意失真越小。 $ MSE=\frac{1}{mn}\sum\limits_{x=0}^{m-1}{\sum\limits_{y=0}^{n-1}{(I(x,y)-K(x,y))^2}} $两个m×n单色图像 I 和K， I 为一无噪声的原始图像，K为 I 的噪声近似（例：I 为未压缩的原始图像，K为 I 通过压缩后的图像）。 $ PSNR=10log_{10}(\frac{MAX^{2}}{MSE}) $其中，MAX是示意图像点色彩的最大数值，如果每个采样点用 8 位示意（例：影像解决），那么就是 255。 PSNR avg.MSE与PSNR avg.log，谁更胜一筹PSNR avg.MSE：当聚合整个视频的逐帧分数时，首先计算MSE的算术平均值，而后取对数。 $ PSNR_{avg.MSE}(V,\bar{V}) =10log_{10}\frac{MAX^{2}}{\frac{1}{n}\sum\limits_{i=0}^{n-1}{MSE(V_{(i)},\bar{V}_{(i)})}} $ PSNR avg.log：当聚合整个视频的逐帧分数时，首先计算每帧的PSNR，而后计算所有视频帧的算术平均值。 $ PSNR_{avg.log}(V,\bar{V})=\frac{1}{n}\sum\limits_{i=0}^{n-1}{10log_{10}\frac{MAX^{2}}{MSE(V_{(i)},\bar{V}_{i})}} $ 经微帧屡次测试表明，相较于PSNR avg.MSE，PSNR avg.log具备肯定不合理性，其太过“关照”品质更高的帧，比方PSNR=99dB和PSNR=50dB的单帧，往往在主观上看不出区别，但通过PSNR avg.log的公式计算后，PSNR=99dB的一帧就会大大拉高最终平均分，在特定序列上容易被trick。然而，事实上人眼对于品质越差的帧反而越敏感，所谓一锅老鼠屎坏了一锅粥，当观看视频时忽然闪现一帧品质差的画面，人眼会对这一帧记忆更为粗浅。相较于PSNR avg.log，PSNR avg.MSE就更加关照低质量帧，从这点上更合乎主观感触。 SSIM（构造相似性）一种全参考的图像品质评估指标，别离从亮度、对比度、构造三方面度量图像相似性。SSIM取值范畴为[0,1]，值越大，示意图像失真越小。 $ SSIM（x,y）=\frac{(2\mu_{x}\mu_{y}+c_{1})(2\sigma_{xy}+c_{2})}{(\mu_{x}^{2}+\mu_{y}^{2}+c_{1})(\sigma_{x}^{2}+\sigma_{y}^{2}+c_{2})} $$ c_{1}=(k_{1}L)^2,c_{2}=(k_{2}L)^2 $ SSIM在掂量编码主观损失方面有其独特的体现。比方，当x264关上AQ(自适应量化技术，敞开AQ时，x264偏向于对低细节度的平滑区域应用过低码率，AQ能够更好地把码率调配到各个宏块中)，PSNR和VMAF都会重大掉分，SSIM却能体现出收益。大量实际表明AQ与主观呈正相干，SSIM在这点上更合乎主观感触。 VMAF（视频多评估办法交融）由Netflix推出的视频品质评估工具，用来解决传统指标不能反映多种场景、多种特色的视频状况。该指标是目前互联网视频最支流的主观视频评估指标，实用于掂量大规模环境中流播视频品质的观感。 VMAF的“喜”与“忧”“喜” — VMAF的劣势视频画质加强是目前视频暴发时代的刚需利用，它可能更好的晋升用户观看体验，然而品质评估罕用指标PSNR和SSIM，尽管简略易算，但却不能齐全反馈人眼主观感触，更无奈评估对原画的加强，VMAF却能够做到这一点。通过比照能够发现右图通过画质加强，能展示更多的细节，小字变得更加清晰，同时VMAF也有了较大的晋升。 “忧” — VMAF的有余① VMAF值可能被trick。单纯为了进步VMAF值，而加强对比度，理论是不合理的，虽VMAF值进步了，但画质却并没有真正晋升，轻重倒置。下图为例，左边视频仅在右边视频根底上进行了对比度加强的解决，右边VMAF为67.44，左边VMAF为97，可见通过加强对比度，VMAF也晋升了不少，但当咱们查看细节，会发现画质没有失去基本晋升，原有的马赛克、噪点仍然存在。 ② VMAF在掂量原画损失的能力稍弱，有时不如SSIM与PSNR，甚至事与愿违。咱们能够做一个简略试验，采纳x264 superfast对规范测试序列Johnny做定码率编码，在敞开deblock后（采纳了no-deblock选项），PSNR和SSIM呈现显著损失，VMAF却获得了增益，如下表所示。（deblock是视频编码一项成熟已久的技术，用来加重编码造成的马赛克伤害。） ...

关于视频编码:揭秘视频千倍压缩背后的技术原理之环路滤波

随着5G的成熟和宽泛商用，带宽越来越高，让传输视频变得更加容易。挪动设施算力的晋升、存储容量的晋升，也使得视频技术的利用越来越宽泛。视频相干的技术，特地是视频压缩技术，因其专业性，深刻开发的门槛较高，在实时通信场景中，视频压缩技术更面临严厉的挑战。因为在实时通信场景下，不仅对时延和设施适配的要求很高，对带宽适应的要求也十分高，因而开发一款满足实时通信要求的编解码器，难度很大。此前，咱们曾经在《深入浅出了解视频编解码技术》一文中简要介绍了视频编解码根本框架，也在《揭秘视频千倍压缩背地的技术原理之预测技术》深入分析了该框架中的预测技术，明天咱们将持续深刻分析其中的环路滤波模块。 PART 01 什么是环路滤波？基于块的混合编码框架始终是多种视频编解码规范的外围。在编码视频的时候，人为地将视频宰割成不同大小的块，再进行预测和弥补，而后再对预测残差进行变换和量化，这一过程都是基于块进行的，在重建视频的时候，在不同的块的边界上就会呈现不连续性，这样的不连续性，也就是常说的“块效应”，如图1-1。 ▲ 图1-1环路滤波前的重建图像通常人眼会对这样的不连续性比拟敏感，很容易感触到视频的清晰度降落。块效应的产生，一方面是因为基于块的变换和量化操作，量化误差导致不同的块的重建样本产生了不同重建值，从而产生了边界；另外，因为静止弥补时，相邻的编码块的预测值，并不一定来自同一帧的相邻块，也会引入虚伪边界；相似的，帧内预测不同的预测模式，生成预测值的形式不同，也会引入虚伪边界。为了缩小视频中块的不连续性带来的主观品质降落，能够对重建视频进行滤波操作，如图1-2，通过滤波之后，视频的主观品质有了显著地改善，虚伪的块边界平滑了，更为靠近原始图像。从图中也能够发现，平坦区域，块效应更加显著，纹理丰盛的区域（树叶），有天然的图像边界，也有编码引入的块边界，块效应绝对不显著，同时，环路滤波器的设计也须要思考辨别“真”、“假”边界，避免对图像自身曾经有的天然边界进行平滑，导致失真。 ▲ 图1-2环路滤波后的重建图像在较早的编码标准中，如MPEG-2，该操作都是在后处理阶段进行的，即视频流在解码重建后，输入之前进行滤波，以缩小主观上的不舒适性。从H.263附录J开始，引入了“环路滤波”，之所以叫“环路”或者“In-loop”，是因为该滤波器在解码的闭环当中，如图红色模块所示，码流中的语法元素解析后，进行反量化和反变换，并与预测值叠加，失去重建图像，该重建图像将先进行环路滤波，再输入显示，同时作为参考图像，以便于后续的视频帧进行静止弥补。因为环路滤波的引入，在晋升视频主观品质的同时，也进步了预测的准确性，也进一步提高了编码效率。H.264的环路滤波只有去块滤波一种；从HEVC/H.265开始，环路滤波模块引入了多种类型的滤波器，例如HEVC中的SAO(Sample Adaptive Offset)[1]、AV1中的CDEF(Constrained Directional Enhancement Filter)[2]、LR(Loop Restoration)[3]、VVC中的LMCS(Luma Mapping With Chroma Scaling)、ALF(Adaptive Loop Filter)[4]等。本文将简要介绍HEVC中的去块滤波和AV1中的CDEF，以深刻了解环路滤波的作用和成果。 ▲ 图2 混和编码框架中的环路滤波 PART 02 HEVC中的去块滤波器环路滤波的次要性能是去除块效应，设计去块滤波器的次要难点在于对于某一个块边界，是否要进行滤波，以及滤波的强度应该是多少。对块边界进行适度的平滑操作，会导致原有的图像纹理失落；然而较低强度的平滑，却无奈齐全去除虚伪边界。因而，去块滤波器岂但要思考图像自身的纹理个性，也要思考编码时采纳的编码参数，如此能力将真正因为编码引入的人为边界去除。HEVC中，8x8的块的程度和竖直的边界是去块滤波的滤波对象，去块滤波器取边界两侧各4个像素点进行滤波。如此一来，去块滤波以8x8为根本单位，并且不同的8x8的样本之间无重叠，能够进行并行处理，进步处理速度。但并非所有的8x8边界都要进行解决，只有满足肯定的条件才会进行：该边界是预测单元或者变换单元的边界；块边界的强度非零；边界两侧样本的部分特色满足肯定的统计个性。边界强度边界强度将决定是否滤波以及滤波器的强度。边界强度可能的取值为0，1，2。取值为0，即不进行滤波操作。边界强度取决到边界两侧的编码块是否是Intra模式，是否有非零系数，是否有不统一的静止方向，是否参考了不同的帧等。这里充分考虑了编码失真才会引入虚伪边界这一事实，防止对天然的平坦区域进行不必要的滤波操作。部分特色当边界强度非零，将进行一步查看图像的部分统计特色。根本的思路是，假如边界两侧的样本间断变动，这些样本将在一条直线上，换言之，像素点的梯度是一个常量；反之，如果边界两侧的梯度相差较大，则有虚伪边界引入，如图3所示。当然，偏离水平与量化参数是相干的，规范给出了不同量化参数下的阈值。为了升高运算的复杂度，只计算第一行（列）和第四行（列）样本偏离直线的水平。同时，该偏离水平也与滤波的强度有肯定的分割，它决定了滤波的两种模式，即一般滤波和强滤波。 ▲ 图3 块边界两侧样本的部分个性去块滤波器一般滤波和强滤波两种模式由边界两侧像素点的梯度依据肯定的规定进行决策。在一般滤波模式下，可能批改边界两侧最近的各一个或者各两个像素点，其中p0或者q0的滤波器的冲激响应为(3 7 9 −3)/16，p1或者q1的滤波器的冲激响应为(8 19 −1 9 −3)/32。在强滤波模式下，边界两侧各三个像素点会被批改，对p0、p1、p2的滤波器的冲激响应别离为(1 2 2 2 1)/8、(1 1 1 1)/4、(2 3 1 1 1)/8。 HEVC中的去块滤波与H.264相比，复杂度大大降低了。一方面HEVC的去块滤波是以8x8的块为根本单位，而264是4x4为根本单位；另一方面，HEVC的变换核尺寸和预测单元的尺寸都变大了。除此之外，HEVC的去块滤波的并行度也有了改良，8x8的块的边界两侧各取4个点进行滤波操作，多条边界应用到的像素点互不重叠，能够并行处理；竖直边界和程度边界以帧为单位进行，比H.264以宏块为单位进行更能进一步提高并行度。 PART 03 AV1中的CDEFCDEF滤波器的根本作用是在放弃视频图像细节的前提下，应用非线性的空域滤波器来打消编码中呈现的失真。视频中的各种纹理细节，方向多种多样，CDEF首先检测纹理的方向，而后沿纹理的方向进行自适应滤波。 CDEF的纹理检测为了放弃图像自身的纹理细节，滤波操作该当依照纹理的根本方向进行，防止将纹理自身当作失真进行解决，造成品质降落。CDEF被置于去块滤波操作之后，在重建图像上进行纹理检测。纹理检测的根本单元是8x8的块，这样做的益处，既能无效地解决纹理又能够便于将滤波操作进行并行处理（SIMD优化）。CDEF设计了8种纹理方向，如图4所示。 ▲ 图4 CDEF的纹理方向定义 [2] ...

关于视频编码:干掉大小流切换-I-帧阿里云-RTC-QoS-及视频编码联合优化之切流编码

如果要在两条分辨率不同的视频流之间切换，目前所有的视频编码标准都必须要编码 I 帧，即只能利用帧内预测，只管这两条流的画面内容根本一样，然而因为两条流的参考帧不同，分辨率不同，目前所有的视频编码标准都无奈做到利用帧间信息冗余进行编码，而帧内编码即 I 帧的压缩效率是十分低下的，因而在切流处很容易造成视频品质降落或因为码率突增引起的卡顿；阿里云 RTC codec 在前代规范的根底之上通过独创的切流编码技术和网络层 QoS 体系的紧密配合能够做到在此种场景下依然利用帧间信息冗余编码 P 帧，相比于 I 帧显著晋升压缩效率，晋升视觉体验。作者｜安基程、田伟峰审校｜泰一1. 背景介绍一条视频流，如果中途扭转分辨率，对于目前支流的 H.264/AVC, H.265/HEVC 规范来说，必须要编码 I 帧，即只能利用帧内信息冗余，如图 1（左）所示；新一代的编码标准如 AV1，H.266/VVC 等能够做到利用帧间信息冗余，不编 I 帧，以晋升压缩效率，基本原理是通过对参考帧进行缩放，使得参考帧和以后帧的分辨率统一，如图 1（右）所示，阿里云 RTC codec 的变分辨率编码（Resolution Change Coding，以下简称 RCC）技术也具备该能力，详情请参考咱们之前的分享：《阿里云 RTC QoS 弱网反抗之变分辨率编码》。本文将要介绍的切流编码（Stream Switch Coding，以下简称 SSC）技术是对 RCC 技术的降级。图 1. 变分辨率示意图(左：传统插入 I 帧形式；右：参考帧缩放技术） H.264/AVC 规范的 SP slice 技术能够用于切换两条分辨率一样的视频流，然而对于切换两条分辨率不同的视频流则无能为力。 2. 切流场景简介图 2. 多流场景示意图图 2 展现了多流场景，一个 publisher 上有两个 encoder: Enc0, Enc1, 别离发送大分辨率的流和小分辨率的流（以下简称大流和小流），两路流的画面内容是一样的，只是分辨率，码率不同，所以清晰度不同，subscriber 能够依据本人网络情况等抉择订阅不同的流，比方网络好的时候就收大流，网络差的时候收小流，图 2 中共有 6 个 subscriber 也即 6 个 decoder，其中 Dec0, Dec1, Dec2 接管的是大流，Dec3, Dec4, Dec5 接管的是小流。图 3. 惯例切流示意图 ...

关于视频编码:40带宽成本节约京东云视频云正式支持AV1编码

追网剧、看大片、直播间“买买买”、视频会议，视频利用曾经与人们的工作和生存深度交融。据统计，在线视频畛域用户应用时长已超过社交畛域，而5G时代视频在互联网的流量占比将会增长至85%~90%。随着视频利用的蓬勃发展，网络所承载的视频数据量也迎来爆发式增长。面对用户对视频画质要求的一直进步，如何在无限带宽的网络环境中，实现更清晰、更低成本的视频信号传输，始终备受视频企业关注。云端AV1视频编码服务：无效节俭码率30%凭借在视频编码畛域的深耕和积攒，京东云视频云正式推出基于云端的AV1视频编码服务—AV1+京享超清转码服务（简称AV1），编码效率方面，AV1无效节俭码率30%，成为国内仅有的几家反对直播、点播AV1视频解决业务的云厂商之一。 AV1是新一代开源视频编码格局，是由AOM（Alliance for Open Media，凋谢媒体联盟）制订的一个开源、免版权费的视频编码格局，是新一代当先的免版权费的编码标准。相比目前支流的H.264与H.265编码格局，AV1除了凋谢、免版税劣势外，AV1在编码性能上也独具劣势，它具备更高的压缩比，能够在不升高视频品质的状况下节俭大量数据带宽——这也是迈向更高帧率、8K分辨率、HDR规范的一个关键因素。支流编码标准品质比照 AV1节俭带宽老本30%-40%AV1能够让用户在低码率下享受与高码率雷同的画质体验，通过京享超清转码技术，直播、点播业务相比开源软件在雷同画质下均匀别离节俭超30%—40%的带宽老本，在等同带宽条件下，提供更加高清优质的视频画质体验。 AV1视频直播服务次要反对RTMP、HLS/DASH、HTTP-FLV等协定，基于以上协定再反对AV1编码格局传输，使得以更少的带宽传输更高品质视频内容，在视频品质（清晰度、分辨率和帧率）雷同的状况下，能够节俭约20%的流量。 FLV标准规范不反对HEVC、AV1，开源FFmpeg未定义FLV的HEVC、AV1的CodecID，以后国内相干社区已反对封装/解封HEVC的FLV的补丁，国内各直播CDN厂商根本反对HEVC的封装和解封，而京东云视频云则针对FLV/HLS反对AV1进行了一系列优化。 01 推拉流根本流程： 02 FLVAV1扩大阐明：FLV新增AV1的CodecID为0xD，以及新增FLVAV1 sequence head obu定义。 03 HLSAV1扩大阐明：TS新增AV1的Stream_type为0xB2，以及自定义存储格局。 04 AV1码流构造：AV1 bit stream目前反对两种格局：Low overhead bit stream format（低开销 bitstream格局）、Length delimited bit stream format （长度宰割bit stream格局）。默认反对low overhead bitstream 格局obu，length delimited bit stream格局会造成肯定节约，举荐应用low overhead 格局。在视频点播方面，AV1领有更丰盛的编码工具，极大地了晋升编码效率，FFmpeg4.1.x以上对AV1规范容器格局MKV/MP4反对了封装/解封。在视频解决层面，京东云视频点播已反对AV1相干的转码等媒体解决。 H.264编码与AV1编码成果比照图目前，AV1编码服务已在京东云正式上线，用户可通过京东云官网“视频服务”产品页入口申请开明：视频点播：视频点播作为国内当先的视频云服务商，京东云视频云产品涵盖视频直播、视频点播、实时音视频平台、全端SDK等，买通了视频采、编、播、存、管、审、发全流程。基于在视频编码、算法优化、音频剖析解决、实时音视频等方面的技术冲破，产品在京享超清转码、舒服音频、实时音视频通信、超低延时直播等性能方面领有绝对当先的技术劣势，同时能够为客户提供场景化的视频端到端的整体解决方案。京东云视频云产品技术幅员例如在视频解决层面，京东云实现了4K超高清视频从采集到直播核心的高质量高传输。超低提早直播服务曾经在京东618、11.11寰球购物节的直播上规模化利用，实现了端到端秒级内的低延时传输，在网络抖动、秒开、卡顿错误率等性能指标上都失去了大幅的优化。京东云始终致力于成为优质视频利用的基础设施提供商，为视频企业提供最稳固、平安、便捷、高效的服务。将来，京东云将以技术创新为本，用视频云技术推动百行千业的枯萎倒退和业务翻新。

关于视频编码:AVAssetWriter视频数据编码

AVAssetWriter介绍能够通过AVAssetWriter来对媒体样本从新做编码。针对一个视频文件，只能够应用一个AVAssetWriter来写入，所以每一个文件都须要对应一个新的AVAssetWriter实例。 AVAssetWriter初始化应用一个视频文件门路对AVAssetReader进行初始化，并指定文件类型。 NSError * error;_mAssetWriter = [[AVAssetWriter alloc] initWithURL:videoUrl fileType:AVFileTypeAppleM4V error:&error];AVAssetWriter设置Input在写入之前，须要设置Input，与AVAssetReader的Output一样，也能够设置AVAssetWriterInput输出的类型为AVMediaTypeAudio或者AVMediaTypeVideo，以下设置以AVMediaTypeVideo为例。在设置Input时能够指定output设置，这个设置里次要蕴含视频参数。AVVideoCompressionPropertiesKey对应的属性值是编码相干的，比方一下参数： AVVideoAverageBitRateKey：视频尺寸*比率，10.1相当于AVCaptureSessionPresetHigh，数值越大，显示越精密（只反对H.264）。AVVideoMaxKeyFrameIntervalKey：关键帧最大距离，若设置1每帧都是关键帧，数值越大压缩率越高（只反对H.264）。AVVideoProfileLevelKey:画质级别，与设施相干。 a. P-Baseline Profile：根本画质。反对I/P 帧，只反对无交织（Progressive）和CAVLC； b. EP-Extended profile：进阶画质。反对I/P/B/SP/SI 帧，只反对无交织（Progressive）和CAVLC； c. MP-Main profile：支流画质。提供I/P/B 帧，反对无交织（Progressive）和交（Interlaced），也反对CAVLC 和CABAC 的反对； d. HP-High profile：高级画质。在main Profile 的根底上减少了8×8外部预测、自定义量化、无损视频编码和更多的YUV 格局；AVVideoCodecKey：视频的编码方式，这里设置为H.264.AVVideoWidthKey, AVVideoHeightKey：视频的宽高。更多的设置能够参考文档：Video Settings | Apple Developer Documentation NSDictionary *codec_settings = @{AVVideoAverageBitRateKey: @(_bitRate)}; NSDictionary *video_settings = @{AVVideoCodecKey: AVVideoCodecH264, AVVideoCompressionPropertiesKey: codec_settings, AVVideoWidthKey: @(1920), AVVideoHeightKey: @(1080)}; _mAssetWriterInput = [AVAssetWriterInput assetWriterInputWithMediaType:AVMediaTypeVideo outputSettings:video_settings];针对AVAssetWriterInput还能够设置相应的AVAssetWriterInputPixelBufferAdaptor来接管CVPixelBuffer。AVAssetWriterInputPixelBufferAdaptor提供了一个CVPixelBufferPoolRef，您能够应用它来调配用于写入输入文件的像素缓冲区。文档中写到应用提供的像素缓冲池进行缓冲区调配通常比附加应用独自池调配的像素缓冲区更无效。初始化的时候能够设置相干的参数，比方CVPixelBuffer的色彩格局，CPU和GPU的内存共享形式等。CVPixelBuffer能够由AVAssetWriterInputPixelBufferAdaptor提供的缓冲池创立。CVOpenGLESTextureCacheRef创立一块专门用于寄存纹理的缓冲区，这样每次传递纹理像素数据给GPU时，间接应用这个缓冲区中的内存，防止了反复创立，进步了效率。 NSMutableDictionary * attributes = [NSMutableDictionary dictionary];attributes[(NSString *) kCVPixelBufferPixelFormatTypeKey] = @(kCVPixelFormatType_32BGRA);NSDictionary *IOSurface_properties = @{@"IOSurfaceOpenGLESFBOCompatibility": @YES, @"IOSurfaceOpenGLESTextureCompatibility": @YES};attributes[(NSString *) kCVPixelBufferIOSurfacePropertiesKey] = IOSurface_properties;_mAssetWriterPixelBufferInput = [AVAssetWriterInputPixelBufferAdaptor assetWriterInputPixelBufferAdaptorWithAssetWriterInput:_mAssetWriterInput sourcePixelBufferAttributes:attributes];CVPixelBufferRef renderTarget;CVOpenGLESTextureCacheRef videoTextureCache;CVReturn err;if (videoTextureCache == NULL) { err = CVOpenGLESTextureCacheCreate(kCFAllocatorDefault, NULL, [EAGLContext currentContext], NULL, & videoTextureCache); if (err) { //错误处理 }} err = CVPixelBufferPoolCreatePixelBuffer (NULL, [_mAssetWriterPixelBufferInput pixelBufferPool], &renderTarget); if (err) { //错误处理 } //对CVPixelBuffer增加附加信息，做色彩格局的转化 CVBufferSetAttachment(renderTarget, kCVImageBufferColorPrimariesKey, kCVImageBufferColorPrimaries_ITU_R_709_2, kCVAttachmentMode_ShouldPropagate); CVBufferSetAttachment(renderTarget, kCVImageBufferYCbCrMatrixKey, kCVImageBufferYCbCrMatrix_ITU_R_601_4, kCVAttachmentMode_ShouldPropagate); CVBufferSetAttachment(renderTarget, kCVImageBufferTransferFunctionKey, kCVImageBufferTransferFunction_ITU_R_709_2, kCVAttachmentMode_ShouldPropagate);从CVPixelBuffer创立OpenGL的texture，会将renderTarget中的像素数据传输给OpenGL，能够在该texture上的绘制再编码进文件中。 ...

关于视频编码:阿里云-RTC-QoS-弱网对抗之-LTR-及其硬件解码支持

LTR 弱网反抗因为须要解码器的反馈，因而用硬件解码器实现时须要做一些非凡解决。另外，一些硬件解码器对 LTR 的实现不是特地欠缺，会导致呈现解码谬误。本文为 QoS 弱网优化系列的第三篇，将为您详解阿里云 RTC QoS 策略中的 LTR 抗弱网原理与实现硬解 LTR 时遇到的坑及其相应解法。作者｜安基程、陶森柏、田伟峰审校｜泰一 Long Term Reference (LTR) 抗弱网原理参考帧失落的 I 帧复原在 RTC 场景下个别的编码参考策略是向前一帧参考（在不思考 temporal svc 的状况下），因为个别状况下参考间隔越近，相似性越好，则压缩成果越好，出于实时的思考编码只有 I 帧和 P 帧，没有 B 帧。在有 P 帧失落的场景下，接收端须要从新申请 I 帧能力持续正确的解码和播放。如上图所示，失常的 I P P P 帧编码，如果产生弱网导致两头的某个 P 帧（✖️ 标记）失落，无奈复原，则接收端会申请发送端从新编码 I 帧，然而 I 帧只能应用帧内预测，所以编码效率低下。参考帧失落的 LTR 复原长期参考帧是一种可跨帧的参考帧抉择策略，这种策略突破了传统的向前一帧的限度，能够更加灵便地抉择参考帧。长期参考帧策略的目标是在有 P 帧失落的场景下，接收端不须要从新申请 I 帧也能持续正确的解码和播放，其绝对于 I 帧能够显著晋升编码效率，节俭带宽。该技术能够绕过失落的帧，利用失落帧之前的一个曾经接管的长期参考帧作为参考进行编码 / 解码显示，从而晋升弱网场景下的视频流畅性。上图所示是引入 LTR 技术后的丢帧复原策略，未产生弱网时依然是失常的 I P P P 帧编码，只是会将其中的某些 P 帧标记为 LTR 帧（如图中的绿色 P 帧，以下称为 LTR 标记帧）。如果产生弱网两头的某个 P 帧（✖️ 标记）失落，无奈复原，则接收端会申请发送端（编码器）利用 LTR 复原，此时编码器会利用之前的曾经确认收到的 LTR 标记帧做为参考编出一个 P 帧（图中红色 P 帧，以下被称为 LTR 复原帧）。 ...

关于音视频:会议更流畅表情更生动视频生成编码-VS-国际最新-VVC-标准

阿里云视频云的规范与实现团队与香港城市大学联合开发了基于 AI 生成的人脸视频压缩体系，相比于 VVC 规范，两者品质相当时能够获得 40%-65% 的码率节俭，旨在用最前沿的技术，普惠视频通话、视频会议、在线教育等重要应用领域。作者｜王钊、叶琰、王诗淇审校｜泰一 https://www.youku.com/video/X... 基于 AI 生成的人脸视频压缩继线上购物、线上领取后，在线教育、在线办公、在线互娱也流行起来，丰盛着咱们的日常工作生存，其中一大功臣 —— 视频，是次要的推动力。整个社会的大趋势在走向内容视频化，交互线上化。视频云业务成为云业务中最煊赫一时的版块，云端一体发明了更低成本、更低门槛、更强体验、全民共享的技术普惠能力。钉钉也成为一种新的工作学习形式，通过视频会议帮忙亿万人解决异地工作的问题，帮忙亿万中小学生解决在家上课的问题。不论是视频会议还是其它视频场景，视频压缩都是最根本也是最外围的能力。国内 ISO/IEC 与 ITU-T 规范组制订的一代代视频压缩规范，如 H.264/AVC (2003)，H.265/HEVC (2013) 等，代表了视频压缩能力的每一次重大倒退。在 2020 年，最新的国内视频压缩规范 H.266/VVC 正式实现制订，相比于 H.265/HEVC，能够进步一倍压缩率，相比于 H.264/AVC，能够进步四倍压缩率。 AI 技术的衰亡也在向宽泛的应用领域发动挑战。其中，号称 “万物皆可生成” 的 GAN（反抗生成网络) 则被一些互联网科技巨头公司尝试用于会议视频压缩上。2020 年，Facebook 与 Nvidia 均公布了基于生成的会议视频压缩办法，报告显示能够获得显著优于 H.264/AVC 的压缩效率。明天，阿里云视频云的规范与实现团队通过和香港城市大学的严密单干，也推出了基于 AI 生成的会议视频压缩零碎，相比于最新的 VVC 规范，在实验室测试场景中，雷同的人眼观看品质下能够节俭 40%-65% 的码率。VVC 曾经代表着业界最先进的视频压缩能力，而咱们零碎相比于 VVC 所显示的技术劣势则意味着咱们无望能够在不久的未来大幅度拉开钉钉视频会议和竞品零碎之间的技术差距，用一半的带宽开雷同品质的钉钉视频会议！传统主观品质评估指标如 PSNR、SSIM 等依赖于像素级的失真计算，并不适用于生成工作的失真评估。DISTS 指标（ PAMI2020[1] ）和 LPISP 指标（ CVPR2018[2] ) 是两个近年来品质评估畛域的顶级文章，它们通过深度特色来度量解码图像与原始图像的类似度，能够更好地针对基于 GAN 的视频压缩场景进行品质评估，因而它们与人眼主观品质评测的相关度远高于 PSNR 和 SSIM 这些传统指标。 ...

关于视频编码:理论-标准-工程-阿里云视频云编码优化的思考与发现

阿里云智能视频云资深技术专家王豪（天野） 2010 年毕业于华中科技大学，尔后投身多媒体方向的技术开发，从流媒体、视频编码、视频解决到品质评估均有波及，并从零开始打造了一款宽泛商用的视频编码器及其前后解决零碎。退出阿里云视频云后，负责视频编码与加强算法，团队聚焦在视频编码、视频前后解决以及品质评估方向，并重点研发演进窄带高清技术。此次作为 LiveVideoStackCon 2021 的讲师，王豪与咱们分享其对编码优化的思考与发现。 Q1.你最近关注的技术趋势？有哪些是你认为比拟有发展前景的？我集体的技术栈始终聚焦在视频编码和解决方向，也始终在思考，在这个方向上，咱们短期和长期的布局是什么，中短期布局如何保障竞争力，以及长期布局如何防止系统性踏空。利用 AI 辅助视频压缩是业界十分关注的方向，它有这几种思路：公有编码模式：端到端的视频压缩，基于深度学习的模块级视频压缩优化；基于实时图像生成的视频压缩，因为 GAN 生成人脸和人体比拟成熟，但在其余场景成熟度不够，因而这个方向在会议场景比拟火，咱们也在继续关注和尝试。基于规范编解码器的视频编码与解决联结优化，包含两局部：利用视频解决晋升编码压缩率和利用视频编码晋升视频解决成果。这其中，我最关注 “基于规范编解码器的视频编码与解决联结优化”。针对视频后处理，还有如何进行编码决策优化（包含模式和码率），同时扩大到分层编码，这个方向是整个端云联结优化的外围，对工业界利用有很大价值，心愿到时候和大家一起探讨。 Q2.你已经参加上线的音视频业务，印象粗浅的一个是？印象最深的必定是当下正在做的业务。咱们团队正在进行窄带高清第二代的算法优化降级，在如何继续提画质和降码率的过程中走了很多弯路。目前，在窄带高清第二代优化中，咱们从人眼视觉登程，将主观最优转向主观最优，同时利用 AI 进行视频加强，再加上视频编码解决联结优化，使得码率节俭的同时，主观品质也显著失去优化，这项技术更适宜高热内容场景的解决，可能为客户带来更大的商业价值。什么是窄带高清？窄带高清代表的是一种老本与体验相和谐的视频服务理念，阿里云早在 2015 年就提出了 “窄带高清” 的技术概念，其是以人眼主观感触最优为基准的视频编码技术。窄带高清在业界属于内容自适应编码领域（contentadaptive encoding), 外围指标为：谋求带宽，品质，老本的最优均衡。窄带高清的技术价值？直播平台调研数据显示，只有 16% 的用户可能看到超清的视频，54% 的用户可能看到高清的视频，30% 的用户看不到高清视频。窄带高清以人眼主观感触最优为基准的视频编码，可能把超清码率往高清码率更凑近一些，让更多的人能够看到超清视频。窄带高清 1.0: 通过视频前解决晋升视频品质，实现码率节俭。窄带高清 2.0: 引入 AI 进行细节 / 色调自适应修复、加强，从人眼视觉模型登程，将视频的优化指标从经典的 “保真度最高” 调整为 “主观体验最好”，在提供更加清晰的观看体验同时节俭带宽。Q3.你此前承受 LiveVideoStack 的采访时，有探讨过视频 Codec 的将来格局：2019年采访：《王豪：AI和编码联结优化为视频压缩提供了更多可能》 “先说论断：视频 codec 的将来格局必然是群雄争霸的场面，并且在中美贸易战的影响可能呈现新的变数。因为 HEVC 专利池的各种问题，H.264 一家独大的劣势不复存在，目前 AV1 在国外基于谷歌生态的劣势，曾经在流媒体畛域站住了脚跟，造成三强争霸的场面。对于下一代编码器而言，AV2 预计距公布还有肯定的工夫，这里先不评估，曾经公布的 AVS3 基于以后贸易战的模式下可能有新的机会，而对于 EVC 和 VVC，专利策略将是市场是否承受的关键因素，目前还不好说。” Q：在 VVC 定稿、神经视频编码进一步冲破、AV1 一直遍及的一年后，你对此有哪些的认识与思考呢？当初仍然是群雄争霸的场面，支流也仍然是 H.264，VP9 因为压缩率没有真正和 H.264 拉开差距，尽管生态也很全面，但应用不多。H.265 的硬件解码在生产电子和智能电视上被广泛支持，惟一的软肋是浏览器。目前，在流媒体畛域，H.265 仍然是除 264 外最合适的 codec。 ...

关于视频编码:技术干货-深入浅出理解视频编解码技术

导读：随着挪动互联网技术的蓬勃发展，视频已无处不在。视频直播、视频点播、短视频、视频聊天，曾经齐全融入了每个人的生存。Cisco 公布的最新报告中写道，到 2022 年，在挪动互联网流量中，视频数据占比将高达 82% 。视频为何如此遍及呢？是因为通过视频能方便快捷地获取到大量信息。但与此同时，因为视频数据量十分微小，视频的传输、存储也面临着微小的挑战。从 20 世纪 90 年代以来，数字视频编解码技术迅速倒退，始终是国内外钻研的热点畛域。视频编解码，将是保障用户高品质视频体验的重要技术。No.1 视频编解码技术及规范视频编解码技术的次要作用，是在可用的计算资源内，谋求尽可能高的视频重建品质和尽可能高的压缩比，以达到带宽和存储容量的要求。为何突出“重建品质”？因为视频编码是个有损的过程，用户只能从收到的视频流中解析出“重建”画面，它与原始的画面曾经不同，例如观看低质量视频时常常会碰到的“块”效应。如何在肯定的带宽占用下，尽可能地放弃视频的品质，或者在放弃品质状况下，尽可能地缩小带宽利用率，是视频编码的根本指标。用专业术语来说，即视频编解码规范的“率失真”性能。“率”是指码率或者带宽占用；“失真”是用来形容重建视频的品质。与编码绝对应的是解码或者解压缩过程，是将接管到的或者曾经存储在介质上的压缩码流重建成视频信号，而后在各种设施上进行显示。视频编解码规范，通常只定义上述的解码过程。例如 H.264 / AVC 规范，它定义了什么是符合标准的视频流，对每一个比特的程序和意义都进行了严格地定义，对如何应用每个比特或者几个比特表白的信息也有准确的定义。正是这样的严格和准确，保障了不同厂商的视频相干服务，能够很不便地兼容在一起，例如用 iPhone、Android Phone 或者 windows PC 都能够观看同一在线视频网站的同一视频。世界上有多个组织进行视频编码标准的制订工作，国际标准组织 ISO 的 MPEG 小组、国际电信联盟 ITU-T 的 VCEG 小组、中国的 AVS 工作组、Google 及各大厂商组成的凋谢媒体联盟等。（图1 视频编码标准及倒退历史）自 VCEG 制订 H.120规范开始，视频编码技术一直倒退，先后胜利地制订了一系列满足不同利用场景的视频编码标准，如图1所示。VCEG 组织先后制订了H.120、H.261、H.262(MPEG-2 Part 2)、H.263、H.263+、H.263++。MPEG也先后制订了MPEG-1、MPEG-2、MPEG-4 Part 2。以及两个国内组织单干制订的H.264/AVC、H.265/HEVC、H.266/VVC；中国自主知识产权的 AVS、AVS2、AVS3 视频编码标准；Google 制订的 VP8、VP9；Google、思科、微软、苹果等公司组成的凋谢媒体联盟（AOM）制订的 AV1。这里特地要提一下H.264/AVC。H.264/AVC虽有近20年历史，但它优良的压缩性能、适当的运算复杂度、优良的开源社区反对、敌对的专利政策、弱小的生态圈等多个方面的因素，仍旧让它放弃着弱小的生命力，特地是在实时通信畛域。像 ZOOM、思科 Webex 等视频会议产品和基于 WebRTC SDK 的视频服务，大多数支流场景都采纳 H.264/AVC。 No.2 混和编码框架纵观视频规范历史，每一代视频规范都在率失真性能上有着显著的晋升，他们都有一个外围的框架，就是基于块的混合编码框架，如图2所示。它是由J. R. Jain 和A. K. Jain在1979年的国内图像编码学会(PCS 1979)上提出了基于块静止弥补和变换编码的混合编码框架。（图2 混和编码框架）咱们一起来对该框架进行拆解和剖析。从摄像头采集到的一帧视频，通常是 YUV 格局的原始数据，咱们将它划分成多个方形的像素块顺次进行解决（例如 H.264/AVC 中以16x16像素为根本单元），进行帧内/帧间预测、正变换、量化、反量化、反变换、环路滤波、熵编码，最初失去视频码流。从视频第一帧的第一个块开始进行空间预测，因以后正在进行编码解决的图像块和其四周的图像块有相似性，咱们能够用四周的像素来预测以后的像素。咱们将原始像素减去预测像素失去预测残差，再将预测残差进行变换、量化，失去变换系数，而后将其进行熵编码后失去视频码流。 ...

关于视频编码:实时音视频面视必备快速掌握11个视频技术相关的基础概念

本文作者Ahab，原题“视频相干的理论知识与根底概念”，收录时有订正和改变。 1、引言随着挪动互联网的遍及，实时音视频技术曾经在越来越多的场景下施展重要作用，曾经不再局限于IM中的实时视频聊天、实时视频会议这种性能，在近程医疗、远程教育、智能家居等等场景也司空见惯。尽管实时音视频技术的利用越来越遍及，但对于程序员来说，这方面的技术门槛依然存在（筹备地说是依然很高），想要在短时间内全面把握实时音视频相干的技术难度十分大。以IM中的实时音视频聊天为例，一个简化了的视频聊天技术，实质就是：音视频技术+网络技术的组合体，如下图所示：网络模块之上的局部，就是音视频技术所波及的领域。 ▲ 图片援用自《微信小程序音视频技术背地的故事》所以，想学习实时音视频开发，个别都是先学习音视频相干的技术常识，至于网络技术，齐全能够离开学习。不过，作为想从事这方面工作的小白面视者，是无奈在短时间内全面把握音视频技术，但能够通过疾速理解相干的常识概念，在自已在脑中疾速组织起相应的常识图谱，有助于日后针对相干知识点一一深刻学习和钻研，也算是一种高效的技术学习办法。本文将通过艰深的文字，长篇累牍地为你解说实时音视频技术中跟视频技术在关的11个十分重要的基础知识概念，心愿能为你日后从事这方面的工作起到抛砖引玉的作用。学习交换：即时通讯/推送技术开发交换5群：215477170 [举荐]挪动端IM开发入门文章：《新手入门一篇就够：从零开发挪动端IM》开源IM框架源码：https://github.com/JackJiang2011/MobileIMSDK（本文同步公布于：http://www.52im.net/thread-3194-1-1.html） 2、对于作者王英豪：现居广州。Github : https://github.com/yhaolpz CSDN: http://blog.csdn.net/yhaolpz 集体博客 : http://yhaowa.gitee.io 3、参考资料[1] 零根底，史上最艰深视频编码技术入门[2] 零根底入门：实时音视频技术基础知识全面盘点 [3] 了解实时音视频聊天中的延时问题一篇就够 4、什么是视频？依据人眼视觉暂留原理，每秒超过 24 帧的图像变动看上去是平滑间断的，这样的间断画面的播放叫视频。艰深来说说，视频相当于间断展现多张图片，原理就像上面这样： ▲ 图片援用自《零根底，史上最艰深视频编码技术入门》 5、什么是分辨率？5.1 根底分辨率是以横向和纵向的像素数量来掂量的，示意立体图像的精密水平。视频精密水平并不只取决于视频分辨率，还取决于屏幕分辨率。 1080P 的 P 指 Progressive scan（逐行扫描），即垂直方向像素点，也就是 "高"，所以 1920 * 1080 叫 1080P，不叫 1920P。 5.2 上采样当 720P 的视频在 1080P 屏幕上播放时，须要将图像放大，放大操作也叫上采样。 “上采样”简直都是采纳内插值办法，即在原有图像的像素点之间采纳适合的插值算法插入新的元素，所以图像放大也称为图像插值。简略的记录一下插值算法：常见插值算法技术原理： 1）邻插值算法：将四个像素（放大一倍）用原图一个像素的色彩填充，较简略易实现，晚期的时候利用比拟广泛，但会产生显著的锯齿边缘和马赛克景象；2）双线性插值法：是对邻插值法的一种改良，先对两程度方向进行一阶线性插值，再在垂直方向上进行一阶线性插值。能无效地补救邻插值算法的有余，但还存在锯齿景象并会导致一些不冀望的细节柔化；3）双三次插值法：是对双线性插值法的改良，它不仅思考到四周四个间接相邻像素点灰度值的影响，还思考到它们灰度值变化率的影响，使插值生成的像素灰度值连续原图像灰度变动的连续性，从而使放大图像浓淡变动天然平滑。除此之外还有很多更简单成果更优的算法，比方小波插值、分形等等。 5.3 下采样当 1080P 的视频在 720P 屏幕上播放时，须要将图像放大，放大操作也叫下采样。 “下采样”的定义为：对于一个样值序列，距离几个样值取样一次，失去新序列。对于一幅分辨率为 MxN 的图像，对其进行 s 倍下采样，即失去 (M/s)x(N/s) 分辨率的图像（s 应为 M、N 的公约数），就是把原始图像 sxs 窗口内的图像变成一个像素，这个像素点的值就是窗口内所有像素的均值。 ...