关于人工智能:整数有约-浙大任意选择小众赛道在智能语音研究领域发光发热

高考考入浙江大学竺可桢学院、同时取得百度奖学金和字节奖学打算双奖的硕士生、3年内发表22篇AI顶会论文、智能语音钻研的佼佼者……对于任意的任何一个标签独自拎进去都已足够亮眼。往年3月，任意从浙大计算机系毕业了，他将持续在科研路上行走，摸索智能语音的更多可能性，为解决人类面临的技术问题出一份力。

整数智能和任意进行了一次深度对话，聊聊FastSpeech系列和他的科研经验。

另辟蹊径：专一智能语音钻研

任意目前在做的事件是智能语音钻研，语音合成是主线，也兼顾主动作曲，歌声合成，语音翻译。

FastSpeech系列是任意的代表作，是以后工业界和学术界最热门的语音合成架构之一。任意说，“寰球有有数互联网公司基于咱们的技术构建语音合成服务。”

谈及FastSpeech系列诞生的契机，任意示意，刚接触语音时，发现市面上用神经网络做的语音模型是一帧一帧吐出来的，假如一秒钟的语音有一百帧，模型要运行一百次。显然，在导航、电话机器人等理论利用中，语音通常须要做到实时，这样的模型无奈很好地满足理论需要。当技术降级为传统办法，语音的速度就会晋升，但又会面临语音品质得不到保障的难题。在这种状况下，任意心愿做一个模型，既能有神经网络高质量合成的长处，又能有较快的推理速度。于是，FastSpeech系列诞生了。

FastSpeech系列也实现了从FastSpeech到FastSpeech 2和FastSpeech 2s的迭代。

第一代基于速度快的突出劣势，迅速建设了影响力，但在合成的语音品质方面不迭谷歌的 Tacotron 2。
而FastSpeech 2间接用实在的语音数据作为训练指标防止信息损失，同时引入了更准确的时长信息和语音中的其它可变信息（包含音高和音量等）来进步合成的语音品质，大大提高了竞争劣势。当初业界利用最广的模型是FastSpeech 2，这个模型易用性很强，提供了很好的调参技巧，不便不同的公司做一些工程调优。

FastSpeech 2s则简化了模型生成链路，但因为训练老本高，利用场景少，这个模型目前还停留在实践层面。任意认为，将来要是算力持续收缩，FastSpeech 2s应该会成为将来一个支流的模型。

在确定智能语音钻研这个方向之前，任意也思考过机器翻译和计算机视觉。但通过在微软亚研院的实习，任意逐步沉迷于语音解决和建模，他发现这些看似难懂的一维信号里蕴含了丰盛的语言学常识与人类情感。

在和本人的研究生导师赵洲沟通后，任意发现在智能语音方向的人才比拟稀缺，且技术倒退的深度也远远不如自然语言解决和计算机视觉，还有很大的空间，更为要害的是语音在工业界的需要很旺盛，于是将钻研方向聚焦于智能语音，心愿通过科研解决更多理论问题。

事实证明，任意的抉择是正确的，他在小众赛道上走出了一条属于本人的路、留下了本人的脚印。

任意在NeurIPS 2019分享工作

谨严思维：“软件工程就像搭一座桥”

任意回顾过来几年的成长经验，感激了很多给予本人帮忙的人。

大二开始，任意陆续在Dashbase（一家总部位于硅谷的守业公司）、网易等公司实习，参加了软件开发、数据挖掘、算法落地等工作。

Dashbase的CTO和任意很投缘，尽管过后CTO身处美国，但常常和任意探讨一个问题探讨到中午，有时甚至会通宵，单方都挺享受独特去解决一个问题的过程。CTO曾对任意说过一句话：“软件工程就像搭一座桥，每一个局部都必须十分小心，稍不留神桥可能就塌了。”

任意通过在Dashbase的实习锤炼了两种思维，一种是工程思维，即每一个中央都须要十分审慎；另外一种思维就是要让本人写的货色可拓展，这样便于后续开发效率的放弃。

大三寒假，通过在浙大竺院的扎实学习和两段实习的积攒后，任意投递了微软亚研的实习，并幸运地进入到机器学习组。这一段实习，让任意和科研正式结缘，好像关上了任意身上科研细胞的开关。也是在微软亚研院，任意遇到了科研路线上的伯乐：谭旭。

任意跟着谭旭做了一个机器翻译的我的项目，负责跑试验，历时两个月，以独特一作身份在 ICLR 2019 发了第一篇顶会论文。在论文截稿前一周，任意每天只睡三四个小时。任意回顾道，“过后就是间歇式睡眠，我会先跑一个试验，而后睡一会，再跑一个试验，再睡一会。”

尽管起初发了很多篇论文，但第一篇顶会论文的发表最让任意难忘。第一篇论文的驱动力就是肯定要收回来，在任意看来，万事开头难，但只有收回来，他才会对后续的科研更有信念。论文发表后，微软亚研基于任意的代码，招了许多产品部门的人员来做落地。任意认为，尽管不是他本人做落地的，但也相当于认可了论文的价值。

任意在微软亚研承受了良好的科研训练，在实验设计、导师沟通、写作逻辑上都学习到很多，起初他能很分明地晓得什么样的文章能做，什么样的文章不能做。用任意本人的话说，“微软亚研是科研圣地”。这里的科研气氛很像学校，leader感觉一个想法有科研价值就能够尝试，也不强求要和公司的业务产生间接分割，这其实很难得。

任意在微软亚研实习

因势利导：实习为科研之路做铺垫

拿到微软亚研的offer之前，任意始终感觉本人适宜做工程，因为他十分喜爱从零开始把一个我的项目搭起来的过程，就像搭积木一样。

但在一次次的机缘巧合下，现在的他，因势利导地走上了科研之路。

被问及如何对待本人的天才和致力占比，任意给出了另一种答案：有时候真的是抉择大于致力，时机很重要，时机占一半，天才和致力各占四分之一。

任意分享了一件很巧的事件，他和团队在做FastSpeech的时候，另外的一个互联网大厂团队也在做类似的内容，起初单方都投了同一个会议，任意团队中了。另一篇同期类似工作则于第二年投中了一个很好的会议。其实两篇论文后果都很好，但因为抢占先机，FastSpeech建设了更强的影响力。任意认为这离不开运气的加持。

当然，运气的眷顾从来不会平白无故。任意说，“时机是建设在致力的根底上，但也不是一段时间的致力就能够取得，只是说致力了取得一个时机的可能性会更大一点，但不代表肯定会取得。”

任意在科研上的顺利离不开他丰盛的实习经验，实习和科研相辅相成，帮忙任意在智能语音钻研方向上愈发精通。实习锤炼了任意的代码能力，而科研离不开代码，一个良好的代码治理习惯能大大晋升试验效率。开发效率和模型训练效率晋升，一个工夫周期里可能尝试的idea数量就更多，这样试验的成功率就会高。

此外，任意认为，做过工程就会无意识地把代码写得更洁净，而后让他人看得懂，这便于升高交换老本。因为做我的项目波及到很多单干，在团队合作过程中，任意会无意识地进行代码标准、项目管理，使得不同的人写的代码看起来像一个人写的，如此，整个团队的运作效率失去极大晋升。

任意与学弟单干

将来可期：为解决人类技术问题出力

对于将来，任意放弃凋谢心态，没有给本人设限。尽管短期内仍然会专一于智能语音钻研畛域，但对于元宇宙、AI+迷信、AI+艺术等等，任意都有很多期待。他喜爱尝试和挑战，并不认为一个畛域就要做十年甚至一辈子。任意心愿能十年后的本人仍然能保持技术的初心，在解决人类面临的技术问题上，付出本人的一份致力。

情感化语音缓解现代人孤单、技术复活逝去亲人的语音、语音合成助力聋哑人发声、AI辅助创作者做更好的音乐……任意还是期待能通过技术晋升来解决更多理论相干的问题，能产生肯定的社会意义。

作为一名世俗意义上的“后浪青年”，谈及内卷，任意说：“我的确很致力，但我感觉卷如同是做一件事为了把他人挤下去，如果做一件事是因为酷爱的话也不是卷。把一件事件做好、把科研做好也不是零和博弈，不是侵害他人的利益，当然，狭义来说，可能你很致力也是卷。”

《模拟游戏》是任意最喜爱的电影，电影讲述了“计算机科学之父”图灵的传奇人生。任意被电影传递的钻研精力感动，认为做科研也是一样，总会碰到前人没有碰到的问题，尽管没有图灵那么难的问题，但也要迎难而上。

不论是他的科研经验，还是实习经验，还是在各个要害节点的抉择或时机，甚至是喜爱的电影或游戏，最初都很“一体化”，最初都回到了任意这个人自身。

任意，人如其名，随其心田，自在丰硕。

对任意最好的祝愿，是祝他持续很“任意”，行其所行，奔赴在酷爱里。

任意毕业照

整数智能好奇心专栏

如何保障高质量的数据集生产

在进行智能语音钻研的过程中，任意有大量语音方面数据采集和数据标注的需要。任意对整数智能的交付品质表示满意，认为交付速度往往超出预期，个别预期一个月实现的工作量，整数智能通常在2-3周之内便能交付。因为任意及其团队须要的数据个性化较强，整数智能的项目经理会进行专门对接，甚至会让技术人员退出探讨，以达到一直迭代的标注要求。此外，任意对彼此单干中的沟通效率等方面都给出了高评估。

除了便当的数据标注平台，整数智能还自研AI辅助工具以进步数据生产效率，包含光流跟踪算法、OCR预标注零碎、ASR辅助音频采集等，能节俭大量的人力标注工夫与复核老本。

另外，整数智能标注平台能够通过多终端无缝连贯，全场景满足用户需要，可对品质进行灵便抽查、动静分阶段验收，帮忙AI企业随时把控数据标注品质及进度，保障信息的同步性，让数据真正牢靠可控。不仅如此，为进步数据集的交付品质，整数智能对数据生产全过程实现了全方位的品质把控。在人员治理方面，波及到数据生命周期的各级人员都参加到品质治理中，确保经手数据的每一方都能严控品质。

正因为继续的技术能力和行业积淀，让整数智能成为了人工智能产业联盟的产业数据组专家，独特参加制订AI行业的数据规范和白皮书工作，失去中国电子技术标准化研究院和信通院的邀请参编SC42《可信赖人工智能标准化白皮书》与《人工智能研发经营一体化（Model/MLOps）能力成熟度模型》规范体系。参加制订包含过程治理、模型治理、平安与风险管理、组织构造、零碎与工具等5个能力规范，致力于帮忙企业进步AI研发经营治理能力，晋升AI模型治理能力，为AI大规模利用提供无效门路。参加制订的TC260《AI数据采集及标注平安标准》，聚焦AI数据采集及标注过程及过程中可能呈现的安全隐患，提炼、梳理相干平安技术。
END

关于人工智能:整数有约-浙大任意选择小众赛道在智能语音研究领域发光发热

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于人工智能:整数有约-浙大任意选择小众赛道在智能语音研究领域发光发热

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复