共计 3346 个字符,预计需要花费 9 分钟才能阅读完成。
ICASSP 2021 将于 2021 年 6 月 6 日 -11 日在加拿大多伦多拉开序幕,凭借在语音技术畛域的扎实积攒和前沿翻新,京东科技团体的 3 篇 论文曾经被 ICASSP 2021 接管。
ICASSP 全称 International Conference on Acoustics, Speech and Signal Processing(国内声学、语音与信号处理会议),是由 IEEE 主办的全世界最大的,也是最全面的信号处理及其利用方面的顶级学术会议。京东科技团体此次的入选论文,在国际舞台全方位展现了 本身在语音加强、语音合成、多轮对话方面的实力。
01.Neural Kalman Filtering for Speech Enhancement
基于神经卡尔曼滤波的语音加强算法钻研
* 论文链接:https://arxiv.org/abs/2007.13962
因为简单环境噪声的存在,语音加强在人机语音交互零碎中表演重要的角色。基于统计机器学习的语音加强算法通常采纳机器学习畛域现有的罕用模块(如全连贯网络、递归神经网络、卷积神经网络等)构建加强零碎。然而,如何将传统语音信号处理中基于专家常识的最优化滤波器设计实践,无效地利用到基于机器学习的语音加强零碎中仍是一个仍未解决的问题。
京东科技团体入选论文《Neural Kalman Filtering for Speech Enhancement 基于神经卡尔曼滤波的语音加强算法钻研》提出了 神经卡尔曼滤波的语音加强框架,将神经网络和最优滤波器实践有机联合,并采纳监督学习办法训练失去卡尔曼滤波的最优权重。
钻研人员首先构建了基于递归神经网络的语音时序变动模型。和传统的卡尔曼滤波器相比,该模型摒除了语音变动遵从线性预测模型的非正当假如,能够针对实际语音的非线性变动进行建模。一方面,基于该时序模型和卡尔曼隐状态向量信息,算法首先失去语音长时包络预测。另一方面,通过交融以后时刻的观测信息,零碎进一步求解基于传统信号处理的维纳滤波的语音频谱预测。零碎最终输入是语音长时包络预测和维纳滤波预测的线性组合。基于传统卡尔曼滤波器实践,本零碎间接失去线性组合权重的最优解,通过设计端到端系统,能够同步更新语音时变网络、和维纳滤波器相干的噪声预计网络的权重。本钻研基于 Librispeech 语音集、PNL-100Nonspeech-Sounds 和 MUSAN 噪声集 的试验结果表明,所提算法在信噪比增益、语音感知品质(PESQ)和语音可懂度(STOI)指标上均获得了比传统基于 UNET 和 CRNN 框架的语音加强算法更好的性能。
02.Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis
基于跨句信息的端到端语音合成韵律建模
* 论文链接:
https://www.zhuanzhi.ai/paper…
只管目前基于端到端的语音合成技术曾经实现了比拟天然,韵律绝对丰盛的语音合成成果,然而并没有采纳篇章构造信息而是只采纳了以后句的语言学特色进行语音合成。通常,韵律信息是和上下文的篇章构造强烈相干的,同样的一句文本在不同的上下文语境下会有齐全不同的韵律体现,因而只用以后句子文本特色进行语音合成的端到端系统在合成一段文本的时候,很难依据上下文信息将一段文本转换为天然的、韵律体现丰盛的语音。
京东科技团体入选论文《Improving Prosody Modelling with Cross-Utterance Bert Embeddings for End-to-End Speech Synthesis 基于跨句信息的端到端语音合成韵律建模》采纳了 目前支流的 BERT 模型来提取待合成文本的跨句特征向量,而后利用该上下文向量改善基于端到端的语音合成模型的韵律成果。
▲图 2:模型构造示意图▲
钻研人员没有采纳任何显示的韵律管制信息,而是通过 BERT 语言模型提取了待合成句子的上下文句子的跨句特色表征,并且将该特色示意作为了目前支流的端到端的语音合成算法的额定输出。论文探讨了两种不同跨句特色的应用形式,第一种是将所有的上下文句子的跨句特色拼接起来用来作为端到端的语音合成零碎的一个整体的输出,第二种形式是将所有的上下文句子的跨句特色作为一个序列,而后用待合成文本的每个语音单元和这个序列进行注意力计算,而后能够通过计算失去的注意力进行对上下文句子的跨句特色进行加权求和计算失去每个语音单元对应的跨句特色。第二种跨句特色应用形式,能够让每个发音单元失去一个细粒度的、对以后单元发音有帮忙的跨句特色。
试验结果表明,本钻研在端到端的语音合成零碎中联合跨句特色之后,能够无效的改善合成段落文本天然度和表现力。 本钻研别离在中文和英文有声读物的数据集上验证了这一试验后果。并且,在比照测试后果中,相比咱们的基于端到端的基线模型,绝大部分测试者更加喜爱本钻研中联合了跨句向量表征的语音合成算法合成出的音频。
03.Conversational Query Rewriting with Self-supervised Learning
基于自监督学习的对话 Query 改写
* 论文链接:
https://github.com/note-lh/pa…
在多轮对话零碎中,用户偏向于简短、口语化的表白,表述中存在着大量信息缺失和指代的景象。这些景象导致了对话机器人难以了解用户的实在用意,大大增加了零碎应答的难度。为进步对话零碎的程度,Query 改写依据用户的历史会话,补全用户的话语,以复原所有省略和指代的信息。然而,目前存在的 Query 改写技术均采纳监督的学习办法,模型的成果重大受限于标注数据的规模,对技术在实在业务场景的落地产生了较大的妨碍。另外,用户问题在产生改写后,用意是否发生变化并没有受到已有工作的关注,如何保障用户问题在改写后的用意一致性仍是一个亟待解决的问题。京东科技团体入选论文《Conversational Query Rewriting with Self-supervised Learning 基于自监督学习的对话 Query 改写》提出了自监督的 Query 改写办法。 当用户问题与历史会话呈现共现词语时,会以特定地概率删除共现词或者采纳代词进行替换,最初 Query 改写模型依据历史会话还原出用户的原始问题。相较于监督学习办法,自监督的学习形式可低成本的获取大量训练数据,充分发挥模型的表征学习能力。
京东钻研人员还进一步提出改良模型 Teresa, 从两个方面进步改写模型的品质和准确性。一是在 Transformer 编码层引入关键词检测模块, 提取关键词领导句子生成。首先对历史会话 (context) 的编码输入构建自注意力图,失去历史会话中词语之间的关联度;而后利用 Text Rank 算法计算词语的重要性得分;最初词语的重要性得分作为先验信息融入解码器,领导模型生成含有更多要害信息的问句。二是提出用意一致性模块, 在 Transformer 编码器的输出文本中减少一个非凡标签 [CLS], 获取文本内容的用意散布,通过束缚用意散布放弃用意一致性。原始会话(Context, Query)与生成的句子(Target) 共享 Transformer 编码器,别离失去改写前后的用意散布,咱们将两者的散布保持一致,进而保障生成句子的用意一致性。
京东科技团体作为京东对外提供技术服务的外围板块,始终致力于前沿钻研摸索,并继续以科技引领,助力城市和产业实现数智化降级。截至目前,京东科技团体在 AAAI、IJCAI、CVPR、KDD、NeurIPS、ICML、ACL、ICASSP 等国内 AI 顶级会议上共发表相干论文近 350+ 篇 ,并在多项国际性学术赛事中斩获 19 项 世界 第一。置信将来,京东科技团体将继续在语音语义、计算机视觉、机器学习等畛域发力,以科技助力实体经济,切实扭转每个人的生存。
举荐浏览
- 对话京东科技算法科学家吴友政:回望 2020,NLP 技术倒退速度强劲
- 京东智联云 4 篇论文入选国内语音顶级大会 Interspeech 202
- NLP 带来的“科幻感”超乎你的设想 – ACL2020 论文解读(一)
欢送点击【京东科技】,理解开发者社区
更多精彩技术实际与独家干货解析
欢送关注【京东科技开发者】公众号