共计 12146 个字符,预计需要花费 31 分钟才能阅读完成。
前言
「语音解决」是实时互动畛域中十分重要的一个场景,在声网发动的「RTC Dev Meetup 丨语音解决在实时互动畛域的技术实际和利用」流动中,来自微软亚洲研究院、声网、数美科技的技术专家,围绕该话题进行了相干分享。
本文基于数美科技 NLP 技术负责人李田在流动中分享内容整顿。关注公众号「声网开发者」,回复关键词「DM0428」即可下载流动相干 PPT 材料。
01 半监督训练在 ASR 畛域的必要性
通用 ASR 的字准确率尽管曾经十分高,然而在面向具体的场景(游戏场景、私聊场景、群聊场景、主播场景)时,还是存在场景不匹配的问题,因为通用的 ASR 在这些畛域中的利用绝对比拟艰难,次要存在以下问题。
1、标注资源的稀缺性
对应场景的标注很难获取,通常状况下无奈疾速取得业务场景须要的大量标注样本。即便样本的获取很简略,但获取标注样本仍是十分艰难的事件,因为标注老本十分高。在创立我的项目或者确定产品方向的时候,会发现波及畛域的 ASR 工作时要先解决数据问题。以前应用音素和文字拆分的时候,数据量要求比拟小,而当初常应用端到端的技术,动辄 1000 个小时起步的数据量,不论是自行标注还是借助比拟出名的数据公司,在产品还没开始的状况下,其费用都是很难承受的。
2、标注品质的不稳固
在唤醒、Siri 交互等场景中,用户晓得后端会进行转录,但大部分业务场景中人对于 ASR 转录是无感知的。
比方在与 Siri 沟通的时候,如果 Siri 没听分明谈话人表白的意思,那么人会进行二次尝试,使表白更加分明即可。然而实在的业务层面,大部分状况下客户并不知道后端在对其进行 ASR 转录,比方直播平台。其中可能会提供审核层面的需要,此时不可能告诉主播声音在被转录,咬字须要更分明一些。吐字不清晰以及句法成分破碎带来的标注品质是十分不稳固的。
那么在标注的时候怎么解决这些问题呢?对数美业务而言,因为笼罩整个互联网中大量的相似社交场景,面临着各式各样形形色色的数据和特定术语等,因而对这类标注的获取难度十分大,同时标注品质也很难保障,但同源数据又能够轻易取得场景的数据,咱们认为半监督计划是一个当仁不让的现实抉择。
如果已经接触过 NLP 或者 CV,置信你对半监督会有比拟明确的定义。在 ASR 这个畛域,尤其基于端到端,目前一般来说分为两种:Self-training 和 Pre-training,其余不太常见,或者目前来看不能在 ASR 畛域取得比拟好的落地。
Self-training 体系次要围绕大家熟知的 Pseudo labeling。外围计划次要基于 consistency regularization 逻辑。实践上来说,Pseudo label 其实是 true label 的一种乐音,在模型训练的时候,将 Pseudo label 和 true label 放在一起进行训练,这自身是训练抗噪的过程,能够使模型逐渐学习。Pre-training 非常简单。如果做 NLP 出身就会比拟理解,原先是在对应畛域中训练对应畛域更适合的表征。这种工作个别围绕的是表征的意义或者内容的重构,不须要额定的标签,这些数据能够构建无标签 / 无人工转录文字的 Pre-training 的训练任务,再应用对应场景的有人工转录数据进行 ASR 工作训练。
01 半监督训练在 ASR 畛域的倒退
1、Self-training
一般来说,Self-training 起始于 CV。从 2013 年的 Pseudo label ICML 第一次提出 Pseudo label 以来,呈现了各式各样的新体系,诸如 2014 年 Learning with pseudo-ensembles(第一个体系),将 Pseudo label 与模型 Ensemble 进行交融;2016 年 Regularization With Stochastic Transformations and Perturbations for Deep Semi-Supervised Learning 认为 Pseudo label 自身的生成逻辑也应该是同一个模型的不同扰动;2017 年 Mean teachers are better role models: Weight-averaged consistency targets 则着重关注如何生成更高质量的标签,其采纳模型均匀的形式取得更好的 teacher 模型,从而确保伪标签的品质。
早在 2014 年、2016 年的两篇论文中,就曾经提及到在 CV 中较火的畛域进行比照学习,论文中的公式论证从很多层面上简直是一样的,能够说技术的倒退是历史的轮回。
2、Pre-training
Pre-training 次要集中在 NLP 畛域,当然在 CV 畛域中也有诸如 ladder network 体系,蕴含 Pre-training 概念。然而 Pre-training 倒退较好的畛域还是 NLP。外围问题在于 NLP 的底层特色是字符,这自身是一个十分离散的体系,是很难与 CV 这种浓密的数据输出进行比拟的。
从这个体系来说,NLP 经验了多年的倒退,从 1994 年的 N-gram-based 特色,到基于 NN 体系,再到起初对 NN 体系外部框架进行设计所生成的 RNN 和 LSTM 等语言模型的衰亡,2017 年 ELMO 横空出世,再到 2018 年 transformer 架构呈现。当初,不论是 BERT 或者是 GPT 等都在 NLP 畛域的各种上游业务上都失去了比拟充沛的验证。
3、ASR 畛域的半监督倒退
一般来说会依据 ASR 自身的时代将其拆成两节:
①基于音素 / 文本拆分的时代:当初很多状况下大家仍然会用 kaidi 作为业务层面的 ASR 底层技术计划。该计划的半监督训练逻辑为,声学模型能够训练一个到 general 音素的模型,而后通过上游语言模型或 rescore 模型输入具体业务所需的文字,从而达到局部半监督的性能。从流程上,它更像是一种迁徙学习。然而随着 Alex Graves 在 2013 年实现 CTC 的博士论文后,端到端体系就开始逐渐锋芒毕露。两年过后,EESEN 团队从新又把 CTC 运到音素层面,使音素 / 文本拆分体系短暂地回归。
②端到端的时代:LAS(listen attendance style)体系衰亡,以及 CTC/LAS + LM hybrid 体系的衰亡,使端到端的成果、数据、模型品质以及推理速度等,开始逐渐超过 Kaldi 或者传统的音素 / 文本拆分模型架构,业界也开始逐渐步入端到端的时代。其工夫脉络为 CTC,Deep speech,Listen,attend and spell,以及 Hybrid CTC/attention。
在 2017 年当前,随着 Watanabi 提出 CTC/attention hybrid 和 ESPNET 框架的放出,端到端体系已初步欠缺并可利用于工业上的各个业务。其提供了一套同 Lattice 一样灵便的联结 decode 框架:基于 hypotheses route 的设计,赋予后续 shallow fusion 更加灵便的交融计划。事实上如果大家应用过 ESPnet,就能够看到整个 hypotheses 门路设计非常灵活,能够引入各式各样的技术计划对 route 进行联结打分或者 rescore。
因为不再采纳音素等根底,且 CTC 和 Seq2Seq 自身训练老本就十分高,再加上理论的标注数据的获取难度,端到端体系对数据依赖的短板逐渐成为了其落地的外围瓶颈。如果在晚期尤其是 2015 年 -2016 年在大厂做 ASR,大家理论落地的教训是,在 1000 小时过后再思考端到端。
由此,如何束缚端到端的数据需要成为前期(从 2019 年 -2020 年开始)优化端到端,进而解决端到端落地的难题,也是学术界和工业界外围考量的问题。自此,基于 ASR 的 Pre-training 和 Self-training 开始逐渐登上历史舞台。此前,尽管进行过相干的钻研,然而影响范畴较小,直到 2019 年和 2020 年,Facebook AI 别离提出了这两个畛域可能工业落地的,且具备微小的发展前景的两篇论文发表,人们才开始关注。
wav2vec: Unsupervised pre-training for speech recognition 是 Facebook 提出的基于 Pre-training 的技术计划。其原理同 word2vec 十分靠近,利用负采样技术训练一个将来时刻表征预测的工作。因为其训练后果可作为任意音频上游工作的特色,所以这一套体系是目前工业界很多大厂都在应用的十分重要的音频技术根底。
Self-training for end to end speech recognition 是 Facebook AI 的 Jacob 团队的钻研,旨在全面的剖析 Pseudo label 体系对于 ASR 的理论落地利用成果。他们过后给出了 Pseudo label 体系在英文 ASR 畛域的几个外围数据集上的 strong baseline,并且第一次零碎的论述了 Pseudo label 体系在 ASR 畛域落地须要解决的几个外围问题。
4、Pre-training VS Self-training in ASR
在 2020 年,因为客户逐渐变多,场景笼罩也越来越广,咱们也同样面临:要对某些特定的场景进行独自的 ASR 构建,以获取相比于竞品更好的模型成果。单纯的利用音素 / 文本架构,通过替换语言模型来应酬各个领域的需要已不能取得咱们所冀望的成果。但与此同时,独自对每个场景要构建本人的端到端 ASR,从数据标注上又是难以承受的。因而咱们就开始考量抉择 Pre-training 还是 Self-training。
本来咱们思考抉择其余大厂相似的体系,比方 Pre-training 的 wav2vec,然而咱们过后屡次尝试了 wav2vec 的实际操作,老本十分高,上游的 Post-pretraining 在对应畛域中的训练加上 Pre-training 自身的训练工夫耗时也十分漫长,导致模型迭代周期会被拉长。重要的是,在 Pre-training+Post-pretraining 阶段临时是没有任何的 ASR 模型产出的,对于新业务要求疾速迭代的场景,这是难以承受的。
基于上述矛盾,咱们最终还是偏向于在业务中应用 Self-training 的技术计划。因为 Self-training 的技术计划可进行每训练一个模型就进行评估,先应用后优化,这对于业务来说是比拟敌对的体系。
5、近期 ASR 畛域 Self-training 倒退轨迹
锚定了 Self-training 指标后,从 2020 年开始咱们就在对这个畛域进行调研跟进。咱们发现,在这个畛域中次要还是 Facebook,Google,三菱 做得比较完善,其余诸如老牌 ASR 公司 Nuance 和一些高校也会针对一些具体问题发表一些改良计划或问题钻研。在 2020 年,他们的钻研方向次要如下:
(1) 2020 年
Facebook:
SELF-TRAINING FOR END-TO-END SPEECH RECOGNITION,
END-TO-END ASR: FROM SUPERVISED TO SEMI-SUPERVISED LEARNING WITH MODERN ARCHITECTURES,
ITERATIVE PSEUDO-LABELING FOR SPEECH RECOGNITION
其钻研脉络为 奢侈 Pseudo label 在 CTC 框架上的 strong baseline 及调研;奢侈 Pseudo label 在 CTC/Attention hybrid 架构上的成果;多轮迭代式 Pseudo label 体系的钻研。
Google:
因为 Google 的 Iterative pseudo-labeling 在 CV 畛域曾经有十分强的技术底蕴,所以一上来他们就给出了他们的多轮迭代式 Pseudo label+model ensemble 计划:Noisy Student Training,并拿下当年 Librispeech100 + 860 SOTA。当然,Iterative 训练中其实存在很多坑,尤其是多轮迭代所带来的数据试验数量的爆炸。这个在咱们的计划中有明确的论述。
三菱:
Iterative 模式,流程上是先对 teacher 进行多轮的 pseudo-labeling 训练,每训练一个 pseudo-labeling,外部就要打一遍标签,这样的多轮次会使训练变得很繁缛。所以从 2021 年开始,咱们也逐渐在各大畛域中看到了 on-the-fly 的形式。比方三菱在 2012 年提出的 MPL(基于 mean teacher 演变而来)。然而 on-the-fly 意味着须要实时生成 label,而 ASR 的 label 生成品质同 decode 计算成本间接相干。简略的 CTC 的 greedy search 比拟快,但其生成的转录文字品质较差;而较为常见的 shallow fusion 计划,仅由多个模型交融打分 decode 转录产生文字,基本上不可能在训练的时候实时产生。所以一般来说,on-the-fly 模式的最终成果其实不如 Iterative 模式。
其余:
Saleforce 来了一次“文艺复兴”,从新将伪标签训练用在了 Essen 框架上。其标签生成采纳了 CTC greedy search。Nuance 作为老牌 ASR 技术厂商,通过论述 FixMatch 实践诠释了半监督的实践实质实际上就是 Consistency Training。
(2) 2021 年
三菱:
因为 on-the-fly 模式的缺点,三菱在 2021 年发表了 advanced MPL,又回归了 Iterative 模式。他们将 teacher 模型和后续的 on the flying 训练流程拆开,同时切换成了对于音频成果更加持重的 Conformer 框架。最初超过了 Google 的 NST 计划,成为目前的第二名。
Facebook:
Facebook AI 在 2021 年应用了 cache 机制,在模型训练过程当中同步另外一个过程 decode,如果 cache decode 满了,就把训练切成 cache 数据和 label 数据进行联结训练,N 步过后 catch 清空,而后从新进行 decode。可见,尽管 Facebook AI 说本人是 on-the-fly 模式,但实质来说还是轮次概念。其应用 36 层 transformer,拿到了截至目前 Librispeech100+860 的 SOTA,甚至能够持平 ESPnet 间接训练 Librispeech960 了。
03 咱们半监督计划解决的问题
1、Iterative or on-the-fly
处于成果需要和目前学术界工业界的论断,咱们的技术方向最终还是锚定了 Iterative 模式。
2、Iterative 的问题
但 Iterative 模式训练起来是十分繁缛的,因为伪标签数据的生成是每一轮训练过后均须要从新生成的,且若要达到很好的后果,依据 Google 和 Facebook 的教训,须要多轮迭代。
那么每轮迭代都有三个问题,第一,如何在伪标签下面产生高质量的数据?这其实实质上来说是最简略的问题,咱们有各式各样的 decode 算法,哪个算法好就用哪个。第二,如何筛选出高质量的伪标签数据?因为咱们不晓得哪个标签是对的,不论品质再高,都会有一些问题存在,此时须要钻研如何将呈现问题的比例升高,有哪些计划能够升高。第三,整个 Iterative 模式中最大的难题就是,如何做标注数据和无标注数据的数据均衡。
Google 的 NST 的体系要做五轮迭代,就意味着每一轮的标注和无标注的配比都是不一样的。第二轮大略是 2:7,第三轮是 1:3,在 librispeech 100+860,这个有标签:无标签 保护在 1:3 高低被验证是比拟正当的比值。然而在不同的工作线,其配比也不雷同。Facebook 在 Librispeech+LibriVox 数据集上试验后果证实其比值须要在 1:10 以上。这导致最终在业务中进行落地的时候,试验老本十分微小。比方有五轮试验,每轮训练均需进行不同比值的多个数据试验,训练实现后筛选模型进行 decode 评估,而后在下一轮再次进行不同比值的多个数据试验,这样迭代五轮。因为 ASR 训练老本昂扬,每一轮的训练节奏都令人十分苦楚。
另外,在无限的标注层面,如何进行模型的冷启动呢?一般来说,初始的训练数据是有标签的,训练数据都非常少。比方 Iterative 中初始的标签数据一般来说非常少,只占能取得的数据的 1/10 左右,那么怎么进行冷启动也就成为一个外围问题。
04 Improved NLPL 解决方案
基于这些问题,咱们提出了本人的解决方案,发表于 Improved noisy Iterative Pseudo-Labeling for Semi-superivised Speech Recogntion 中。当初先给大家提前简略论述一下咱们的解决方案是什么样的。
1、模型框架
从 2020 年当前,咱们就不再应用 Kaldi 体系了,而是切换到了一个类 ESPnet 的自钻研框架。模型框架上,对于 CTC 的前端 sharedEncoder 和 LAS 的 decoder,咱们均采纳的是 transformer,图 1 左侧展现的是 Watanabi 在 CTC/Attention hybrid 那篇论文中的图,左边是对模型框架的介绍,模型参数方面,SharedEncoder 之前有一个 subLayer,采纳的是 2 层 (33+512) 的 CNN,步进为 2,这可能与 ESPnet 中的框架稍微不太一样,但基本上大同小异。ransformer 咱们目前采纳了 128 的 transformer,512 维度,FFN 是 2048,这跟大部分的 formerbase 模型也简直是一样的。另外,AttentionDecoder 咱们采纳的是 6 层 transformer,它的参数配置跟 Encoder 也是一样的。语言模型方面,LT 人!插入的 4 咱们额定增加了一个 6 层的 transformer 语言模型,其余参数配置与 BERT 是一样的,12 头,768dims,FFN 为 3072,这是整体的模型框架。
从 2020 年当前,咱们就不再应用 Kaldi 体系了,而是切换到了一个类 ESPnet 的自钻研框架。模型框架上,对于 CTC 的前端 sharedEncoder 和 LAS 的 decoder,咱们均采纳的是 transformer,图 1 左侧展现的是 Watanabi 那篇 CTC/Attention hybrid 论文中的图,左边是对咱们模型框架的介绍。模型参数方面,SharedEncoder 的 sublayer 目前采纳的是 2 层 (3*3+512) 的 CNN,步进为 2,Transformer 咱们目前采纳了 12 层 8 头,512 维度,FFN 是 2048,这跟大部分的 Transformer-based 声学模型也简直是一样的。另外,AttentionDecoder 咱们采纳的是 6 层 transformer,它的参数配置跟 Encoder 也是一样的。
对于语言模型,咱们额定增加了一个 6 层的 transformer 语言模型,其余参数配置与 BERT 是一样的,12 头,768dims,FFN 为 3072。
■图 1
2、其余通用设置
咱们的试验数据采纳 Librrispeech 100+860,100 作为有标注数据,860 作为无标注数据。LM 数据是 Librispeech 本人的训练数据,以及官网提供的 800W 的文本语料。咱们的声乐特色采纳的是 100 维 Fbank+3 维 pitch。为了缩减文本标签个数,咱们应用了 BPE,把 word 数量压缩到 7002 个 pieces 以缩小最终的输入,同时减速 CTC 的训练。
训练配置方面波及学习率,学习率与 transformer 类似,但存在差别点,就是在 decay 到最初地位的时候,咱们会提前 5000step decay 到最初稳固值,而后再迟缓放弃一段时间。这跟前面保护模型稳固的技术是间接相干的,让它可能在那段时间之内稳固地训练一段时间,使模型均匀可能跟得上。
3、如何在未标注的数据上产生伪标签
目前业内比拟常见的产生 decode 算法且比拟高质量的办法是 shadow fusion 和 deep fusion 体系。咱们采纳了 shadow fusion,并且将声学模型 CTC、LAS 以及 LM 相交融进行搜寻,bean size 为 50。大抵流程上同 ESPNET 差不多,然而咱们有两点小小的改变:
第一个就是咱们采纳 CTC 贪婪搜寻的形式进行句子终结的判断,而 ESPNET 不是这么做的,它有本人的 end detact 算法。
第二个就是咱们不会对门路进行过多的剪枝,而是尽可能多的把门路保留下来。
4、如何筛选高质量的伪标签数据进行下一轮半监督训练
在进行伪标签生成的时候,很多数据的品质其实是不敢恭维的,尤其是后期的训练,比方 NST 或者 Iterative Labeling 的第一轮或第二轮,此时模型在 librispeech dev 和 test 上的 WER 可能靠近 9 或者 10 个点以上。
针对这种状况,Google 和 Facebook 采取粗犷排序取百分位的办法,相似于 ESPNET 中的 hypothesis 的分,而后在 decode 过程当中进行概率加和,把概率从小从大进行排序,而后取其中的 90%。这里可能存在相信率断崖式的状况,比方后面 85% 的数据的概率分布十分相近,而后在 85%~95% 的地位,概率忽然呈现十分大的差别,掉到可能几个点以上变动的概率。为了应答上述问题,咱们采纳散布测验的形式进行样本抽取:咱们先假设它遵从高斯分布,而后只保留高斯分布双边置信区间 90% 或者 95% 来做训练。这里的双边置信区间 90%/95%,并不代表数据保留 90% 和 95%,而是在高斯分布的状况下保留置信区间在这个外面的数据,所以它很有可能是少于间接保留 90% 数据的。
5、标注 / 无标注数据配比如何均衡,能力让模型不会过拟合到无标注数据的为标签数据上
标注 / 无标注数据配比如何均衡是在进行多轮迭代的半监督训练时最大的问题,所有的前序钻研均未给出如何进行比例筛选,而只给出了对应工作的大抵比例,Facebook 他们是做的是 Librispeed 960+LibriVOX,它的比例是 1:10~1:54 之间。Google 是 Librispeech 100 +800,比例在 1:3 左右。
上述意见均无奈领导理论生产中能确定落地应用的比例。比方直播场景的 ASR,以 100 个小时作为起步价,同时可能能够很轻松地取得很多同源无标注数据。然而该以怎么的比例把这些无标注数据和有标签数据放在一起,才不会让模型全副训练到无标签数据上;怎么训练模型能力保障其稳固且成果更好,这将须要进行无穷无尽的数据试验。当然,如果公司外部机器资源足够多的话,确实是能够去做这些试验的,然而很多时候大家并不都像 Google 和 Facebook 一样有那么多台机器,能够间接暴力穷举。
那么此时怎么能力失去每个业务线上的领导意见呢?咱们在 Librispeech 100/860 上进行了具体的试验和定性定量分析,失去了一个领导意见,这个领导意见在目前咱们来看是十分准的领导意见,能够教大家如何进行抉择数据均衡抉择。在这里咱们先进行一个假如,这与咱们为什么要做伪标签的半监督训练间接相干。咱们认为在训练伪标签的时候,因为有标签数据和无标签数据是混合在一起的,所以对于一些伪标签数据,咱们不晓得是否标对了,应该在某些特质上让模型训练尽可能的“激进”,不要过拟合到那些谬误的数据或者尾标数据上。然而又保障肯定的样本多样性,因为如果齐全激进,模型训练就会陷入它认为的数据层面带来的最优,而后原地踏步落入部分最优解。多轮迭代训练会加剧这个过程,导致模型越训练越过拟合。
为了确认应该在哪些地方激进,哪些地方保障多样性,咱们把数据分成三个画像维度,第一个画像维度为音频长度,第二个画像维度为文本 /pieces 长度,第三个维度为标签自身的散布。问题就能够转化为,咱们在哪些维度要尽可能保障训练激进,哪些维度要尽可能保障样本的多样性。基于此,咱们进行了大规模的试验,每一轮生成新的伪标签后,咱们会依据不同的比例,构建多个训练样本的 candidate,也就是备全集,这个 candidate 中的每一批训练数据。在每一轮训练之前,咱们都将每一份悬链 cadidate 同咱们上一次训练的数据 在上述三个维度进行比拟,并且对所有的 candidate 进行排名。比方 1:2 的 candidate 同上游在三个维度上进行排名,1:4 的 candidate 也会有一个排名,1:5 和 1:6 也会有一个排名,等等。
在评估排名计划上,因为 frame lenth 和 pieces length 是繁多维的统计量,所以咱们采纳了 KS 测验。但 label 散布自身是多维的,所以咱们先归一化 TF,而后利用欧式间隔评估本轮数据和上轮数据的散布差别,再对每个 candidate 排名。
通过大量的试验,发现了一个十分明确的法则,就是 pieces 散布自身差别越小的前提下,更大的 frame lenth 散布差别和 pieces length 的散布差别个别会带来更好的新一轮的模型成果。上述逻辑能够被形容成一个通用范式,如图 2 所示。
■图 2
6、模型训练中如何确保模型不会过拟合到谬误的伪标签上的 trick
这是在整个这个体系中咱们发现的一个关键点。这里咱们有两个维度。第一个维度是数据层面的维度,咱们退出了 specAug 和 specAug++ 使整个数据具备更好的泛化性。同时在模型层面,相似于 MPL,咱们会生成 online 和 offline 的生成,在后期抉择 online 的后果,前期抉择 offline 的后果,一般来说第五轮过后 offline 的后果会稳固高于 online 的后果。另外,咱们还会进行 dropout 晋升,对于 dropout 会从 0.1 逐渐晋升到 0.3,因为 伪标签训练 会有很大的过拟合危险,然而基本上晋升到 0.4 当前就不会有任何新的收益了。
7、在无限的标注样本下,模型冷启动监督训练如何进行能够取得最优的成果
咱们同样采纳了两阶段式的训练。第一阶段式的训练从 dropout0.1 30epoch 搭配到第二阶 dropout0.13 100epoch 成果最优。具体的试验后果如图 3 所示。这也阐明了一个问题,就是冷启动时应该先以一个比拟少的 epoch,比拟小的 dropout,疾速拟合指标,而后上调 dropout,让它以一个绝对比拟泛化的训练配置,再训练更多的轮次,让模型达到最优。这种冷启动形式基本上能够和 Google 的 NST 体系的模型冷启动后果是持平的。
■图 3
最初介绍整个 improved NIPL 的最终成果。目前在截止咱们投稿 interspeech 2022 来看, 在 Librispeech 100+860 上比咱们强的目前是两家,第一家就是三菱 MPL 的 conformer 是 3.8%/8.2%。但若控制变量为同样应用 transformer,三菱只有 4.8%/10.1%,而咱们是 3.93%/9.59%。另一家就是 Facebook 的 simIPL,它的 36 层 transformer 能够做到 3.8%/7.5%,而且不须要任何语言模型,如果加上语言模型和 rescore 能够做到 2.7%/5.2%。这个成果曾经属于超出咱们认知的成果了。因为咱们训过 960 的数据,ESPnet librispeech 960 监督训练训练进去是 96.96 应该是 3.04%,这意味着 Facebook 不必 860 的数据,只 100 的 label 就能够做到 2.7%/5.2%。
最初介绍整个 improved NIPL 的最终成果。目前在截止咱们投稿 interspeech 2022 来看, 在 Librispeech 100+860 上比咱们强的目前是两家,第一家就是三菱 MPL 的 conformer 是 3.8%/8.2%。但若控制变量为同样应用 transformer,三菱只有 4.8%/10.1%,而咱们是 3.93%/9.59%。另一家就是 Facebook 的 simIPL,它的 36 层 transformer 能够做到 3.8%/7.5%,而且不须要任何语言模型,如果加上语言模型和 rescore 能够做到 2.7%/5.2%。这个成果曾经属于超出咱们认知的成果了。因为咱们训过 960 的数据,ESPnet librispeech 960 监督训练训练进去是 96.96 应该是 3.04%,这意味着 Facebook 不必 860 的数据,只 100 的 label 就能够做到 2.7%/5.2%。
05 问答环节
1、比照 WER 成果如何?
咱们的 test clean 是 3.93,test other 是 9.59,然而咱们起初又持续进行了 NIPL 训练第七轮和第八轮,test other 还能再升高。尽管 test clean 仍旧维持在 3.93,但 test other 到明天为止曾经升高到了约 9.3。三菱的 conformer 是 3.8%/ 8.2%,比咱们的 3.93 低,但它们的 transformer 是 4.8%/10.1%。Facebook 的 simIPL 是 3.8%/7.5%,对于 Facebook simIPL 咱们示意有点不太置信,成果有点恐怖。这么来看咱们应该是寰球第三,比 Google 在 2020 年发表的那篇 NST 还要好一点。
2、介绍一下 CTC 的应用
CTC 在刚呈现的时候,因为其训练优化的难度比拟高,对于数据量的要求也比拟刻薄,所以过后对 CTC 的应用都是些奇技淫巧。诸如上文所述 ESSEN,把 CTC 用于训练音素,而后仍然跟大家一样去接 WFST。因为音素的个数绝对于 word 来说小很多,大幅升高了 CTC 的训练难度,使之能在局部畛域上同 MMI,LFMMI 等计划成果不分伯仲。间接裸上 CTC 端到端 ASR 数据老本会十分昂扬。
如果你在 2020 年问这个问题,在新业务上会举荐你试一下 ESSEN 我的项目。但当初是 2022 年了,CTC 的工业界的应用中曾经产生了很大的变动。Watanabi 那篇论文通知大家,CTC 和 LAS hybrid 这套体系可能有十分好的成果,并且数据品质也不会像原先 CTC 那样要求那么高,因为 LAS 体系有十分多的优化技巧能够用于帮忙训练。所以 CTC LAS 是目前相对来说比拟规范的应用计划。如果你没有本人的 ASR 训练平台的话,我倡议你尝试 ESPnet/Wenet,如果流式辨认是外围业务诉求的话,Wenet 能够作为第一抉择。
流动预报
「RTC Dev Meetup – 杭州站」,咱们将聚焦大前端技术,邀请来自 声网、蚂蚁团体和海康威视 的技术专家,为咱们分享大前端时代在实时互动畛域的业务架构和跨端实际。
心动不如口头,赶快扫描二维码或者点击 此处 报名吧!