关于音视频:网易云信音画同步测试方法的研究与实践

随着挪动互联网的遍及和网络带宽的进步，音视频通话越来越成为人们生存和工作中不可或缺的一部分。音画同步是音视频体验的一个重要指标，在音视频传输过程中，因为不同的传输策略因为网络的烦扰，音频和视频往往难以同时达到，即便在网络层面对齐后在设施侧音频播放和视频渲染也存在肯定的时间差，从而导致音画同步问题的产生。为了解决这个问题，须要对音画同步进行主观的测试，以便更好地评估音视频通话的品质。

对于音画同步，业界有 3 个规范，其中影响力最大的是 ITU-R BT.1359。

ITU-R BT.1359（1998）：国际电信联盟规范
ATSC IS/191（2003）：美国的数字电视国家标准
EBU R37（2007）：欧洲播送联盟规范

音视频同步评估规范

无奈感知：-100ms ~ 25ms
能辨认：–125ms & 45ms
不可承受：小于 -185ms & 大于 90ms

其中负值示意画前音后；正值示意画后音前。

主观评估的次要思维是人工察看和评估音画同步情况，并依据集体主观感触和教训来做出评估。在音视频通话中典型的测试形式是一个人数数，另一个人察看对方的口型和听到的声音是否统一，故音画同步在音视频通话场景又名唇音同步。当然也有改进版本，通过播放一些规范的音画同步测试视频来代替数数，从视频内容的中辅助察看着去尽可能减少和量化集体主观评估影响，参考测试视频可点击观看：https://www.bilibili.com/video/BV1Bk4y1z78S/?spm_id_from=888….

主观评估办法的劣势是绝对容易实现和管制，同时能够精确反映用户体验和情感反馈。然而其劣势也比拟显著，次要包含：

受测试者主观因素的影响，不同的测试者可能会有不同的主观感触和评估规范，导致后果的不一致性和不准确性。
测试可重复性差，主观评估办法往往难以量化和标准化。
测试工夫和人力老本高。

主观评估办法的外围思维是通过音视频内容辨认的技术来定义用户理论看到的和听到的内容，再针对内容进行对齐通过获取到的工夫戳的差别来评估主观的音视频同步时延。

对于测试视频的筹备音频个别采纳信号音，视频图像内容上减少数字标签，两者有做好对应关系保护，以保障发送端是齐全同步的，在接收端通过信号音 &OCR 辨认技术进行音视频的内容判断 & 对齐。

主观测试组网

基于后面的调研，在实验室外部进行了落地，并在落地过程中针对遇到的一些问题进行优化。

设施列表

测试组网

测试素材制作

艰难 & 优化计划：

传统的信号音计划容易被音频 AI 降噪算法打消，导致在音频特征分析时无奈被精确辨认。

优化计划：应用失常的语音替换信号源，优化音频内容辨认计划。

视频标签 OCR 辨认高分辨率下开销大且会测试烦扰内容。

优化计划一：固化测试环境及视频标签所在位置，对输出视频进行 crop 解决，局限性较大。

优化计划二：应用二维码代替数字视频标签，理论测试 resize 到 360P 均能失常辨认，且不受地位和内容烦扰。

音视频工夫戳对齐

艰难 & 优化计划：

音视频时延实现逻辑差别，无奈失常实现工夫戳对齐。

优化计划：基于发送端工夫戳人造对齐的根底，将时延计算基于发送端实现，缩小承受端对齐操作。

音视频采集卡采集延时不对等引起测试后果的误差。

优化计划一：事后评估设施采集误差，解决数据的时候打消该误差。

优化计划二：将发送端和承受端基于归一到同一个采集卡，多路同时采集，时延计算时误差人造打消。

后果准确度晋升

艰难 & 优化计划：

受网络及测试规格的影响，接收端无奈保障内容的完整性，常常会呈现无奈找到音视频的标签对应的点。

优化计划：减少音频 & 视频采集工夫戳对齐逻辑，同时在工夫戳差别较大时减少音视频被动向后查找逻辑。

音频必须继续一段时间能力评估时延，而视频仅需一帧图像即可输入时延。

优化计划：视频时延减少窗口逻辑，保障和音频统计距离统一，基于窗口内的数据均衡解决后打算音视频时延。

在实验室弱网评测引入音视频同步指标，量化了音视频同步状况，开掘了多个弱网场景下音画同步显著劣于竞品的问题，在推动外部优化后，目前该指标从显著落后于竞品已初步超过竞品。

竞品比照数据

优化现有音视频同步的阈值，音视频通话场景下用户实在体验的容忍度理论比 [-90,185]（音频 - 视频）的范畴是更高的。
用户综合体验指标钻研：评测过程中发现局部场景下竞品会抉择适当就义音画同步成果，保障音视频的实时性。这种时候繁多的评估论断不具备非凡意义，须要通过综合体现来评估最终的用户体验

关于音视频:网易云信音画同步测试方法的研究与实践

概述

业界办法调研

评估规范

主观评估

主观评估

利用实际

测试环境

优化计划

成绩

将来布局