本文为「Dev for Dev 专栏 」系列内容,作者为声网音视频实验室工程师 黄译庆。
音频品质的优化是一个简单的系统工程,回声打消是其中一个陈词滥调的话题,一般来说,回声打消的成果受设施自身的声学设计、声学环境、以及软件系统等诸多因素的影响。传统的办法做回声对消包含线性回声对消与滤波非线性解决,但目前回声打消的前沿畛域仍面临着非线性回声对消、近端能量小于回声能量、立体声的回声问题、麦克风与参考信号时钟不统一、参考信号不精准、不足牢靠的时延预估办法等难题。声网音频技术团队基于本人的实际,推出了非凡场景下的音频测评系列文章,本文是回声打消篇──在此抛砖引玉、恳请业界同仁多加批评指正。
随着 4G/5G 的利用,实时音视频畛域也迅猛发展,实时语音品质的也越来越受到人们的关注。回声、延时、卡顿等因素成为人们关注实时语音品质的次要方面。这篇文章次要来介绍下实时语音通话中的回声打消问题。
回声是指扬声器播放的声音又被麦克风采集并发回远端的景象。所有的通信零碎必须进行回声打消,否则会重大影响通信品质。回声打消产生的问题次要分为两大类,漏回声和双讲掉字,其直观体现就是谈话人听到了本人的声音和对方声音卡顿甚至听不见。
■图 1:声学回声产生的起因
01 回声打消的几个难题
■图 2:回声打消计划
影响回声打消的因素很多,比方音量问题──当播放的信号过大的时候,很容易产生回声,根因次要有以下几种:
1、麦克风采集到的回声信号溢出(clipping)而引入非线性回声;
2、音量过大加剧硬件设施本身的振动,引入非线性成分;
3、麦克风采集到的回声信号未溢出但远大于近端语音信号,双讲时造成重大的掉字甚至听不见。
此外,延时抖动、时钟偏移、采集或播放频率不稳、非线性失真、回声门路变动、混响、硬件 3A(手机自带 3A)的解决成果等等,都是常见的影响回声打消的因素。宏观上来讲,采集或者播放设施的外观(扬声器 / 麦克风器件型号及排列形式),手机自带的 3A 解决算法(手机的厂商,零碎和型号),传输算法,环境因素以及复杂多变的通信场景,都会对回声打消带来不同的影响。
02 回声打消的评测办法
回声产生的场景如此简单,那咱们怎么去进行回声打消的测评呢?在实验室场景中,咱们对回声打消的测评,次要分为两局部来进行。第一局部,人工主观测试,重点关注各类简单场景下,是否有回声问题;第二局部,主观自动化测试,重点关注大量的不同机型 / 零碎版本,是否有回声问题。
人工主观测试,比拟好了解。就是人工互通,去模仿各类用户可能应用的场景,去测试是否有回声的产生,常见的场景比方主播观众切换,切后盾 / 锁屏,开启 / 敞开(与音视频相干的)第三方利用、打断等,以及配合各种终端设备(耳机 / 外放 / 蓝牙耳机)/ 环境(宁静 / 嘈杂)的切换等。
那主观自动化测试如何去检测回声呢?
咱们搭建了一套用于测评 AEC 的零碎。该零碎实用于声网及业内 SDK 的所有场景,应用的语料为在消音室录制的人声语料,在用户 top 机型和常见问题机型上进行评测。设施的音量均调至官网举荐音量,以测试机 speaker 的播放残缺度、测试机 speaker 的播放响度、长短时回声占比、残留回声量等指标来掂量 AEC 品质。
03 具体的 AEC 主观测评办法
该测试方法是通过测试安装对立收发测试信号,可进行回归测试,在大批量的自动化测试中也据有较好的稳定性,能大幅提高测试效率。
步骤一:将近端设施与远端设施通信连贯;
步骤二:电脑通过声卡输入音频信号到近端规范设施,供近端设施采集测试音频信号;
步骤三:在远端设施播放接管到的音频信号;
步骤四:声卡同步采集近端设施接管到的待测音频信号;
步骤五:通过检测待测音频信号响度和时长,来确定远端设施的回声打消品质。
■图 3:消音室测试环境
为了评估在现实条件下回声打消的能力,咱们在消音室外面进行测试。断绝噪声并且尽量减少回声。图 3 是测试环境部分展现,咱们在抉择的测试机上进行批量测试。
形容 | |
---|---|
A1 | 全双工无衰减 |
A2 | 全双工在发送方向有衰减 |
B | 很短的削波 |
C | 造成伤害的音节短削波 |
D | 造成字损失的削波 |
E | 很短的残留回声 |
F | 间断回 |
G | 间断回声 |
■表 1 回声打消性能类型形容
咱们依据 3GPP 对回声打消性能分类的形容(表 1) 以及对回声打消性能的分类 (图 4),将回声占比划分为低于 25ms 回声占比、25 ~ 150ms 回声占比以及超过 150ms 回声占比的三个级别,用以界定回声的重大水平。
■图 4 回声打消性能分类
04 测试后果解析
以下是声网和业内计划的 AEC 评测后果。
■AEC 评测后果(局部)
以上是在现实状况下,对回声打消做的评估。然而在理论的通信中,会有各种简单的环境,产生不同水平的回声。为了模仿现实情况下呈现的回声,咱们应用在可调混响室里录制语料来做回声剖析。上面是 AEC 评测计划在四个不同场景、不同档位下的局部数据。同时,也能够测试在频繁进退频道或者长时压测下,回声打消的成果。
可调混响室内可设的混响时间可达 0.2 ~ 2 秒,共 7 档,可模仿小型会议室、客厅、报告厅、大教室、电影院等不同面积大小的理论应用环境,为主观声音评估及主观算法品质评估提供可反复的全场景测试条件。
通过对数据的剖析,咱们能够清晰地看出回声打消的能力。应用大量的测试机型,能够考查出特定机型对回声打消的影响。通过不同版本间的比对,能够评估优化迭代的成果。通过跟业内计划的比照,能够测验咱们研发工作的当先性。