关于美团:低延迟流式语音识别技术在人机语音交互场景中的实践

美团语音交互部针对交互场景下的低提早语音辨认需要，提出了一种全新的低出字提早流式语音辨认计划。本办法将升高提早问题转换成一个常识蒸馏过程，极大地简化了提早优化的难度，仅通过一个正则项损失函数就使得模型在训练过程中主动升高出字提早。在试验测试集上，本办法可能取得最高近 200 毫秒左右的均匀出字提早升高。

人机交互始终都是人工智能大背景下的“热门话题”，语音交互作为人机交互的一个重要分支，具备宽泛的利用价值，也被利用到美团的多个业务场景中，如智能客服、电话营销和电话满意度反馈等。而流式语音辨认技术是整个交互链条的入口，对交互体验影响微小。

常见的语音辨认大多都是非流式语音辨认技术，它是指模型在用户说完一句话或一段话之后再进行辨认。这意味着模型须要期待用户进展或完结谈话能力开始辨认，并且只能在用户进展或完结谈话后能力输入残缺的辨认后果。这样做的毛病是会导致较长的提早和不连贯的交互。例如，在会议场景中，如果应用非流式语音辨认技术，就可能呈现会议参与者说了很长时间的话才显示出他们所说的内容，而且可能因为网络提早或其余起因导致内容显示不全或谬误。这样就会影响会议参与者之间的沟通和了解，并且升高会议效率和品质。

而与之对应的是流式语音辨认技术，它是指能够在解决音频流的过程中，反对实时返回辨认后果的一类语音辨认模型。这意味着模型不须要期待用户说残缺句或整段话就能够开始辨认，并且能够随着用户谈话的进度逐步输入辨认后果。这样做的益处是可能大大减少人机交互过程中语音辨认的解决工夫，进步用户体验和交互效率。例如，在智能客服场景中，应用流式语音辨认技术，就能够实现用户说一句话很快就能取得机器人响应，而不是等到用户说完一段话才给出答复。这样就能够让用户更快地失去称心的解决方案，并且缩小用户的等待时间和不满情绪，晋升用户满意度。在美团外部的泛滥业务场景中宽泛应用了流式语音辨认技术。

本文将具体论述团队在语音交互场景中的低提早流式语音辨认计划，目前以该计划造成的技术论文《Peak-First CTC: Reducing the Peak Latency of CTC Models by Applying Peak-First Regularization》曾经被语音畛域国内顶级会议 ICASSP 2023 收录。

对一个好的流式语音识别系统而言，不仅仅须要高的辨认准确率，还应该具备很低的提早。在交互场景中，低提早能够进步用户体验和满意度，让用户感觉不到语音辨认的解决工夫，更加天然和流畅地进行对话和问答。低提早也能够缩小通话交换中的误会和抵触，让用户可能及时地收到反馈后果，防止反复或打断对方的谈话。此外，低提早还能够减少语音利用的可用性和灵活性，让用户可能在各种场景下通过谈话来实现工作（例如在线游戏、语音助手、智能家居等），节省下来的提早也能够用于在语音服务的上下游部署更加简单的模型构造，从而进一步欠缺交互链路等。

在美团的交互场景中，宽泛应用联结时序分类模型（Connectionist Temporal Classification，CTC）作为根底模型来构架流式语音识别系统。CTC 模型因为其优雅的模型构造、卓越的模型体现以及良好的扩展性受到了宽泛的青眼。目前曾经广泛应用在语音辨认（Automatic Speech Recognition, ASR）、语音翻译（Speech Translation, ST）以及光学字符识别（Optical Character Recognition, OCR）等畛域。

下图展现了一种典型的 CTC 模型构造，其依赖 DFSMN 网络结构搭建，仅蕴含声学编码器（Acoustic Encoder）和输入线性映射层两局部。声学编码器用来将输入的声学特色序列转变成声学编码序列，而输入线性映射层则负责将利用声学编码表示，计算失去模型预测出不同文本标记的概率值。比照其余流式语音辨认模型，CTC 模型不须要简单的编码解码（Encoder-Decoder）构造或者注意力机制（Attention Mechanism）就能实现两个不等长序列之间的转换（对于语音辨认而言是从声学特色序列转换到指标文本序列）。

基于 CTC 的流式语音识别系统对于提早也有着十分高的要求。从用户发音完结到零碎辨认出对应文字之间的时间差被称之为出字提早。出字提早越低则意味着 ASR 零碎吐字的速度越快，用户体验越好。下图展现了 CTC 模型的输入概率分布，其中顶部色块示意用户说的每个文本的发声范畴，而底部对应色彩的尖峰则示意零碎辨认出的文本所在的地位。出字提早则对应着色块尾部与概率尖峰地位之间的时间差。本文所展现的工作就聚焦于如何降流式 CTC 语音识别系统的出字提早。

CTC 模型可能间接建模了声学序列到文本序列的转换关系，而不须要注意力机制等构造。因为文本序列的长度远远小于声学特色序列（通常状况下声学特色序列以帧作为单位，相邻两帧之间距离为 10ms，时长为 1s 的语音就能够被划分为 100 帧），而在模型预测过程中，每帧特色都有一个预测标签。CTC 损失计算过程中引入了空格标记 φ 来作为填充标记符，以使得文本序列与声学序列的长度相等。

以下图 (a) 中所展现的 CTC 门路空间为例，其中横轴示意声学特色序列，纵轴示意指标文本序列。一条语音预测出文本序列“CAB”的概率能够被形容为后验概率 $P(\text{CAB}∣{X})$，为了不便计算损失，须要应用空格标记 φ 对文本标记填充，填充之后会呈现与指标序列对应的多条门路（对应图 3(a)中的实线与虚线，从图中左上角开始空格标记或者非空格标记开始，沿着线段转移至右下角空格或者非空格标记的门路均是一条可能的解码门路），所有门路的概率和等于后验概率 $P(\text{CAB}∣{X})$。为了防止门路穷举导致的计算爆炸问题，CTC 损失计算过程实际上应用了基于动静布局思维的前后向算法，来对所有可行的解码门路进行概率求和，并最终以负对数概率作为最终损失函数来进行优化。

因为 CTC 的输入概率中蕴含着海量的可行解码门路，为了升高输入提早，咱们对所有的解码门路进行了认真的剖析和察看，如下面 (a) 图所示，网格中蕴含与文本“CAB”对应的多条可能的门路，以橙色和蓝色实线连贯的门路为例，显然两条门路的转移地位存在显著区别，蓝色门路别离在 t_2，t_4 和 t_6 地位预测出字符 ”C”，”A”，”B”；而橙色门路则在 t_4，t_6 和 t_9 地位才预测出对应的字符。因而蓝色门路绝对橙色门路具备更低的出字提早，其从时间轴上来看，蓝色门路绝对橙色门路更加靠左。基于这个察看，咱们能够得出结论：具备低提早的门路在时间轴上的非空格标记概率尖峰的地位会更加靠前一些。因而，咱们提出了一个猜测，能够通过将 CTC 输入的概率分布整体左移的形式来升高模型的出字提早。

基于这个假如，本文提出了一个简略的正则化办法 – 尖峰优先正则化办法（Peak-First Regularization, PFR），来使得 CTC 模型的模型输入的概率分布实现整体左移以升高出字提早。PFR 办法奇妙应用了常识蒸馏的办法，迫使 CTC 输入概率分布的每一帧概率都学习其邻近下一帧的信息。如上图 (b) 所示，利用逐帧的常识蒸馏函数，使得每一帧的概率分布都学习其后一帧，随着迭代的进行，模型实现了整体散布的左移。其损失计算过程能够被表述为以下模式：

该损失函数仅作为正则项应用，整体损失函数能够被形容为：

其中 λ 作为权重，用来均衡两个损失之间的关系，防止输入概率继续挪动最终导致训练解体的问题。PFR 正则项在学习过程中实际上出现损失数值回升的态势，当输入散布不再挪动的时候，损失值也趋于均衡。

尽管模型在训练过程中仅学习前面一帧（约等于 40 ms）的内容，然而随着训练后果的累积，能够取得远超 40ms 的提早升高。这样设置有三方面的思考：

首先，模型在齐全学习到下一帧内容后，整体散布曾经左移了 40ms。再持续学习后一帧内容，能够实现提早成果的累加。
其次，思考到 CTC 的输入概率分布是稠密的，如果学习前面第 N 帧的内容，有十分大的可能性第 N 帧是空格标记，起不到学习效果，甚至学不到时序挪动的关系。
最初，仅学习前面一帧的内容会升高训练难度，这种状况下通过平滑后的相邻两帧之间的概率分布的类似水平比拟高，比拟容易间接学习。如果间接学习前面第 N 帧的内容，也容易使得模型初始状况下面临更加艰难的学习环境。

尽管本文通过间接的办法来实现升高提早的成果，然而其依然具备肯定的解释性。能够对其梯度进行剖析，如果 CTC 在第 t 时刻预测出第 $k$ 个标记的概率是，则其梯度能够被形容为：

$$ \frac{\partial \mathcal{L}}{\partial p_{k}^t}=-\frac{G(t,k)+\lambda p_k^{t+1}}{p_k^t}$$

其中 CTC 损失局部梯度为：

$$\frac{\partial \mathcal{L}}{\partial p_{k}^t}=-\frac{G(t,k)}{p_k^t}$$

通过公式能够晓得概率和它邻近下一帧的概率严密相干，如果下一帧预测出同一个标记 $k$ 的概率很大（即下一帧是一个概率尖峰），则会促使以后帧梯度产生较大变动，进而实现概率分布左移，而如果下一帧的概率很小，则对以后帧梯度影响不大，不会产生概率分布位移。

随同着智能交互技术的倒退，大家对于交互体验的要求越来越高，如何升高语音识别系统的出字提早再次成为了钻研热点，各种思路层出不穷。整体来看办法能够被归结为以下四类。

强制对齐（Force Alignment）办法依靠内部模型提前生成强制对齐标注信息。这些信息中蕴含用户发音与标注文本之间的精确对齐关系，在 CTC 或者 Transducer 模型损失计算过程中对门路的提早进行限度，对具备高提早的门路施加惩办，以此来实现升高提早的目标^[3,5]。这一计划将提早作为束缚引入到损失函数的计算过程中，须要批改损失函数以及梯度的计算环节。

门路合成办法以 FastEmit 办法为代表^[4]，次要利用到 RNNT 模型上，其对 RNNT 损失计算过程中的每个节点进行了门路合成，在损失函数的计算过程中，对低提早门路赋予更高的权重，进而达成了激励模型在空格标记和非空格标记中优先预测非空格标记来升高出字提早的目标。

基于这种逻辑训练进去的模型具备较低的提早。尽管该办法解脱了对于强制对齐的依赖，能够使得模型在训练过程中自然而然得地学习到低提早门路，然而这种办法依然须要批改损失函数前向计算环节和批改梯度的计算公式，具体实现绝对简单。

最小贝叶斯危险办法（Bayes Risk CTC）办法将提早作为贝叶斯危险值退出到损失函数的计算过程中^[6]。为了防止大量的计算，应用了分而治之的策略来将门路分组，同组内指定雷同的提早危险值。本办法尽管可能取得提早升高，然而须要批改损失函数和梯度的计算过程，甚至须要模型方面的改变，减少了提早优化问题的复杂度。

自对齐办法（Self-Alignment）办法不须要批改损失函数的计算过程，而是从上一轮的模型的解码后果中抉择低提早门路，并将其作为正则项增加到本轮模型的优化过程中^[7]，这种办法尽管简化了计算量，然而面临新的问题，这种在线解码的办法须要耗费大量的解码工夫，当面临海量数据的时候，在线解码会重大训练的进度，延缓训练流程。

综上所述，本文提出的提早优化策略最为简略，不须要简单的损失与梯度计算，也不依赖内部强制对齐后果，且在小数据和大规模生产数据上同样无效。

字错误率（Character Error Rate, CER）用来掂量标注文本与辨认文本之间的编辑间隔。字谬误越低则语音辨认后果越好。计算公式如下：

均匀尖峰提早（Average Peak Latency, APL）是统计的每个解码正确的概率尖峰的首帧与通过强制对齐办法取得的每个文本标签人声范畴的尾帧之间的时间差的平均值。这一指标反映了零碎的均匀提早程度。均匀尖峰提早越低则意味着出字提早越低，ASR 识别系统反馈辨认后果的速度越快。

因为实在的 CTC 预测的出字提早散布具备长尾散布的特点，所以引入了尖峰提早的 50 分位数和 90 分位数来掂量提早散布的特点。其计算方法是依据每句话的均匀出字提早进行从小到大进行排序，以整个分部中第 50% 和 90% 条句子的均匀出字提早作为指标。PR50/PR90 越低示意整个长尾散布的尾巴越短，长尾散布中尾巴局部的数据提早越低，比例越小。

本文基于开源中文语音辨认数据集 AISHELL-1 进行试验，并采纳了流式和非流式两种模型进行比拟验证。两个模型均为 Transformer 模型构造，蕴含两层 2D 卷积构建的前端特色解决模块，以及 12 层 Transformer 编码层构建的编码模块以及一个输入线性映射层。其中流式模型依赖 510ms 的声学下文。

上图中别离展现了流式辨认模型与非流式辨认模型在开源测试集上的字准确率和提早后果。从试验后果很容易发现，无论是非流式模型还是流式模型，采纳本文提出的尖峰优先正则化办法均可能升高各种提早指标，并且提早的变动值与权重的设置关系密切。通过调节权重设置能够显著扭转提早的大小，权重设置越大，提早越低。在字错误率（CER）不升高的条件下，非流式模型和流式模型在测试集中别离能够取得 149 毫秒和 101 毫秒的提早升高，在 CER 稳定的可承受范畴内，提早甚至能够升高 200 毫秒以上。

当权重设置比拟小的时候，模型甚至可能同时取得 CER 和均匀提早的升高，咱们猜测造成这种景象的起因是正则化使得模型在学习邻近帧的时候同时学到了更长的声学下文信息。随着权重的变大，模型的辨认错误率可能呈现回升，此时权重的设置曾经毁坏了两个损失之间的均衡关系，模型在训练过程中会更激进地偏向于抉择低提早的门路，这种状况下会损失更多的声学下文信息，造成辨认后果的消退。

本文随后通过可视化的形式对系统的提早变动进行剖析。上图中左侧三幅图示意非流式模型的输入概率分布，右侧三幅图则示意流式模型的输入概率分布。图上方的色块与概率尖峰一一对应，便是每个标记的发声范畴，而上面的概率尖峰则示意 CTC 预测到对应标记的地位与概率。

很容易发现图中非流式模型中本来每个尖峰的地位就处于其对应的发声范畴中，引入尖峰优先策略后尖峰的地位甚至可能提前其发声范畴。而流式模型的概率尖峰也往往滞后于其发声范畴，而引入尖峰优先策略后同样能够取得较大的提早升高成果。通过图中不同权重的参数设置也能够发现，应用较大的权重可能更大程度地升高零碎提早。

本文通过对 CTC 的输入概率分布进行剖析，将 CTC 的出字提早问题转化为一个常识蒸馏过程。通过常识蒸馏办法将 CTC 的输入概率分布沿着时间轴左移，从而无效地升高 CTC 模型的出字提早。本文提出的办法简略无效，不须要强制对齐标注信息，也不须要简单的损失和梯度计算方法。此外该办法也具备肯定的扩大空间，或者能够扩大到 Transducer 等语音辨认模型上。

正坤、鸿雨、李敏、飞飞、丁科、广鲁等，均来自美团平台 / 语音交互部。

[1] Alex Graves, Santiago FernÅLandez, Faustino Gomez, and JÅNurgen Schmidhuber,“Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks,”in Proceedings of the 23rd international conference on Machine learning. ACM, 2006, pp. 369–376.
[2] Dario Amodei, Sundaram Ananthanarayanan, Rishita Anubhai, Jingliang Bai, Eric Battenberg, Carl Case, Jared Casper, Bryan Catanzaro, Qiang Cheng, Guoliang Chen, et al.,“Deep speech 2: End-to-end speech recognition in english and mandarin,”in International conference on machine learning, 2016, pp. 173–182.
[3] Andrew Senior, Has.im Sak, FÅLelix de Chaumont Quitry, Tara Sainath, and Kanishka Rao,“Acoustic modelling with cd-ctcsmbr lstm rnns,”in 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU). IEEE, 2015, pp. 604– 609.
[4] Jiahui Yu, Chung-Cheng Chiu, Bo Li, Shuo-yiin Chang, Tara N Sainath, Yanzhang He, Arun Narayanan,Wei Han, Anmol Gulati, Yonghui Wu, et al.,“Fastemit: Low-latency streaming asr with sequence-level emission regularization,”in ICASSP 2021- 2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021, pp. 6004–6008.
[5] Yusuke Shinohara and Shinji Watanabe,“Minimum latency training of sequence transducers for streaming end-to-end speech recognition,”in Proc. Interspeech 2022, 2022, pp.2098–2102.
[6] Jinchuan Tian, Brian Yan, Jianwei Yu, Chao Weng, Dong Yu, and Shinji Watanabe,“Bayes risk ctc: Controllable ctc alignment in sequence-to-sequence tasks,”arXiv preprint arXiv:2210.07499, 2022.
[7] Jaeyoung Kim, Han Lu, Anshuman Tripathi, Qian Zhang, and Hasim Sak,“Reducing streaming asr model delay with self alignment,”arXiv preprint arXiv:2105.05005, 2021.
[8] Shinji Watanabe, Takaaki Hori, Shigeki Karita, Tomoki Hayashi, Jiro Nishitoba, Yuya Unno, Nelson Enrique Yalta Soplin, Jahn Heymann, Matthew Wiesner, Nanxin Chen, et al.,“Espnet: End-to-end speech processing toolkit,”arXiv preprint arXiv:1804.00015, 2018.

| 在美团公众号菜单栏对话框回复【2022 年货】、【2021 年货】、【2020 年货】、【2019 年货】、【2018 年货】、【2017 年货】等关键词，可查看美团技术团队历年技术文章合集。

| 本文系美团技术团队出品，著作权归属美团。欢送出于分享和交换等非商业目标转载或应用本文内容，敬请注明“内容转载自美团技术团队”。本文未经许可，不得进行商业性转载或者应用。任何商用行为，请发送邮件至 tech@meituan.com 申请受权。

关于美团:低延迟流式语音识别技术在人机语音交互场景中的实践

1. 前言

1.1 语音辨认技术简介

1.2 问题与挑战

2. 尖峰优先正则化办法

2.1 CTC 模型根底

2.2 尖峰优先正则化办法形容

2.3 梯度剖析

3. 相干工作

3.1 强制对齐办法

3.2 门路合成办法

3.3 最小贝叶斯危险办法

3.4 自对齐办法

4. 评估指标

4.1 字错误率

4.2 均匀尖峰提早（均匀出字提早）

4.3 PR50/PR90

5. 试验与剖析

5.1 试验与模型搭建

5.2 出字提早比拟

5.3 可视化剖析

6. 总结与瞻望

7. 本文作者

8. 参考文献

Just My Socks（注册教程内含优惠码）

关于美团:低延迟流式语音识别技术在人机语音交互场景中的实践

1. 前言

1.1 语音辨认技术简介

1.2 问题与挑战

2. 尖峰优先正则化办法

2.1 CTC 模型根底

2.2 尖峰优先正则化办法形容

2.3 梯度剖析

3. 相干工作

3.1 强制对齐办法

3.2 门路合成办法

3.3 最小贝叶斯危险办法

3.4 自对齐办法

4. 评估指标

4.1 字错误率

4.2 均匀尖峰提早（均匀出字提早）

4.3 PR50/PR90

5. 试验与剖析

5.1 试验与模型搭建

5.2 出字提早比拟

5.3 可视化剖析

6. 总结与瞻望

7. 本文作者

8. 参考文献

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）