十年育林百度NLP已枝繁叶茂

4次阅读

共计 4765 个字符,预计需要花费 12 分钟才能阅读完成。

种一棵树,最好的工夫是十年前,其次是当初。

——Dambisa Moyo

7 月 10 日,自然语言解决顶会 ACL 2020 落下帷幕。本次大会共收到 3429 篇论文投稿,其中 779 篇被接管,接管率为 22.7%,与去年持平,低于近年来大部分年份的接管率。

在这 779 篇论文中,有 185 篇来自中国大陆,占被接管论文总数的 23.7%,仅次于美国。此外,往年的最佳论文二作和最佳 demo 论文一作均为华人学生。

然而,很多人可能不晓得,2000 年 ACL 年会在中国香港举办时,只有微软中国研究院的论文来自中国大陆;到了 2005 年,来自大陆的论文也只有三篇。

很多变动是过来十几年产生的,尤其是过来的十年。在这十年里,中国的 NLP 学界在 ACL 年会中的投稿数、被接管论文数逐年回升,同时,中国的 NLP 学者也实现了多个“第一次”的冲破:

  • 2013 年,王海峰出任 ACL 五十年来首位华人主席;
  • 2014 年,吴华出任 ACL 程序委员会主席,成为中国企业首位 ACL 程序委员会主席;
  • 2015 年,ACL 年会首次在中国举办;大会上,哈工大教育部语言语音重点实验室主任李生传授取得 ACL 一生成就奖,成为首个取得该奖项的华人;
  • 2016 年,赵世奇入选 ACL 秘书长,成为首位入选该职位的亚洲人;
  • 2018 年,ACL 发表创立亚太区域分会(AACL)并打算在 2020 年举办首次会议,由王海峰负责开创主席;
  • 2020 年,百度领衔组织了 ACL 大会上首场同声传译研讨会(The 1st Workshop on Automatic Simultaneous Translation);

    ……

从这些冲破中,咱们能够看到中国科学家的疾速成长,看到中国 NLP 学界在国内上不断扩大的影响力,看到百度这家中国互联网公司跻身世界科技巨头的致力。

为什么一家中国互联网公司可能吸引泛滥 NLP 畛域的科学家,可能成为国内 NLP 顶会的重要参与者?咱们兴许能够从百度晚期的策略布局中找到线索。

早在十年前,百度就曾经在 ACL 大会上留下了中国互联网企业的身影。彼时,第三次人工智能浪潮还没有掀起太多波澜,李世石和 AlphaGo 的里程碑式对弈还有六年才会产生。

往年正值百度 NLP 的第十个年头,咱们回顾一下过来十年的途程,看看以百度为代表的中国企业如何凭借对整个畛域的洞察在 NLP 当先布局、继续投入前沿技术钻研及产业实际,这对于当下晋升科技竞争力以及如何在行业倒退晚期做好策略布局仍具备借鉴意义。

百度与 ACL 的十年交加

2010 年,百度进入创立之后的第二个十年,中国互联网也进入了高速发展期。

过后,百度曾经积攒了大量的数据和用户群体,有着丰盛的利用场景能够开掘。对于须要大量实在数据并心愿本人的成绩服务宽广用户的研究者来说,百度的这些特质有着弱小的吸引力。于是,在这一年,百度迎来了 NLP 畛域出名科学家——王海峰博士。

王海峰本硕博都毕业于哈工大,早在博士期间就做过将神经网络引入机器翻译的钻研。进入百度之前,他曾先后就任于微软中国研究院、东芝等,并与 ACL 结缘,2004 年开始在 ACL 上发表论文,2006 年曾有 5 篇论文被收录。

除了海量的数据、丰盛的利用场景之外,真正让王海峰下定决心加盟百度的契机其实是 2009 年 8 月的“百度世界大会”。

与以往三届不同,2009 年百度世界大会给人的感觉是分外具备技术滋味。李彦宏在这届大会上推出了全新计算平台“框计算”——用户只有在”百度框”中输出服务需要,零碎就能明确辨认这种需要,并将该需要调配给最优的内容资源或利用提供商解决,最终精准高效地返回给用户相匹配的后果。

从这次大会中,王海峰看到了百度对 AI 技术的器重和筹划。他敏锐地判断出,如果百度沿着“框计算”的思路进一步倒退,就须要更弱小的自然语言解决技术的撑持,尤其是语言剖析、语义了解、常识图谱等方向。

2010 年,进入百度之后,王海峰所做的第一件事就是成立了“自然语言解决部”。

在此之前,百度在 NLP 方面的研发工作始终在业务需要下进行,并没有形成体系。NLP 部门的成立扭转了这种“指哪儿打哪儿”的场面,对原有的工作进行了从新梳理与布局,除分词、专名辨认、query 需要剖析、query 改写等传统方向失去增强外,也逐渐建设了机器翻译、机器学习、语义了解、智能交互、深度问答、篇章了解等新的技术方向。

也是在这一年,王海峰敲定了百度在常识图谱技术上的研发投入,而过后,常识图谱还不是一个热门的钻研方向。

扎实的技术背景和丰盛的行业教训赋予了王海峰在 NLP 畛域弱小的背书能力。因而,他的退出进一步晋升了百度的人才吸引力,帮忙百度招揽了以吴华博士为代表的一大批技术骨干。

吴华博士在人工智能畛域浸润 20 余年,专一于自然语言解决。据统计,她在机器翻译及自然语言解决畛域受权或公开的专利申请有 100 余项,发表学术论文 60 余篇。

随着技术骨干的退出,百度开始在 NLP 畛域的国内顶会中锋芒毕露。2010 年,王海峰、吴华的一篇论文被 ACL 录用,百度也成为加入这个国内顶会的首个中国互联网企业。

在这之后的十年里,百度简直每年都会在 ACL 上展现最新的研究成果,成为这一国内大会的重要参与者。同时,在王海峰等人的一直致力下,中国研究者在 ACL 上的影响力不断扩大,开始领有更多的话语权。

2013 年,王海峰出任 ACL 五十年来首位华人主席。

在王海峰等人的独特推动下,2015 年,ACL 首次在中国举办,体现了国内学界对中国自然语言解决钻研的器重和认可。

2018 年,在第 56 届 ACL 年会开幕式上,时任 ACL 主席 Marti Hearst 发表创立亚太区域分会(AACL)并打算在 2020 年举办首次会议。之后每两年举办一次会议,会议地点将设置在亚太地区,由王海峰负责 AACL 开创主席。

2020 年,百度 11 篇论文被 ACL 收录,笼罩了语义示意、情感剖析、主动摘要、对话零碎、机器翻译、常识推理、AI 辅助临床诊断等诸多热点与前沿钻研方向。同时,百度联结谷歌、Facebook、清华大学等寰球顶尖机构独特举办了首届同声传译研讨会,就 ERNIE 核心技术、凋谢域人机对话技术、智慧医疗、生物医药等业内关注的话题做了演讲,展示了中国企业在 NLP 及 AI 畛域的技术创新与产业实际。

如果将十年前的百度 NLP 比喻成一片苗圃,那么,通过十年的浇灌,这片苗圃未然成林。王海峰等人的奉献在于,他们很早就选到了优质的树苗并悉心培养。

从往年百度被 ACL 接管的论文以及最近颁布的研究进展中,咱们能够看到这种前瞻视线和布局带来的丰硕成果。

从 ACL、百度看 NLP 十年钻研趋势

如果仔细观察近几年的 ACL 接管论文和百度颁布的研究成果,咱们不难发现 NLP 畛域的几个钻研趋势,包含:

1)越来越多的研究者将常识融入到 NLP 模型中,以进步模型的了解和推理能力;

2)多模态语义了解越来越受关注,同时在视频网站、电商物流、主动驾驶等畛域失去广泛应用

……

将常识融入 NLP 模型
语言和常识促成了人类文明的倒退。人们从大量的数据和信息中获取常识,语言是凝炼和传承常识的载体,进而又将常识利用于生产生存的方方面面。早在十年前,王海峰就敏锐地觉察到常识的重要性,开始布局常识图谱技术并逐步加大研发投入。百度将多源异构的海量互联网信息汇聚在一起,从中开掘常识、构建大规模图谱。而过后,常识图谱对于大多数人来说还比拟生疏。

2014 至 2017 年间,基于互联网大数据和搜寻利用,百度常识图谱技术倒退十分迅速。2016 年,百度构建了寰球最大的常识图谱,领有数亿实体、数千亿事实。2017 年,基于常识图谱技术冲破和产业化利用,百度“常识图谱技术及利用”我的项目取得“中国电子学会科技进步一等奖”。

尔后,面向理论利用场景,百度系统地拓展了多源异构常识图谱的研发与利用。针对不同的利用场景和常识状态,构建了关注点图谱、事件图谱、多媒体图谱、行业常识图谱等多种图谱。从认知深度、信息宽度和畛域广度多维度对实体图谱进行了系统性的拓展和降级。在畛域广度方面,则从通用畛域拓展到涵盖医疗、法律等行业在内的具备强知识性的业余畛域。

特地地,在医疗畛域,基于常识图谱技术的辅助医疗决策等产品目前已在全国 300 多家医院、1500 多家基层医疗机构规模化落地利用。相干产品荣获 2019 年全国医疗人工智能利用创新奖。2019 年 7 月,在百度开发者大会上首次公布了“行业常识图谱平台”,整合常识图谱构建、存储、问答、推理等技术能力,为行业常识的获取与利用提供一体化解决方案。

此外,早在 2011 年,百度就着手钻研基于常识的语言解析。2013 年,百度研发了基于海量数据训练的神经网络深度语义匹配框架——SimNet。该框架率先将语义示意与匹配计算对立在一个端到端的神经网络模型里,并联合中文语言个性交融了多粒度常识,反对千亿规模实在搜寻点击数据训练。

去年,百度先后公布了常识加强的语义示意模型 ERNIE 和继续学习语义了解模型 ERNIE 2.0。2019 年 12 月,ERNIE 在国内权威的通用语言了解评估基准 GLUE 上首次冲破 90 大关,超过人类三个点,取得寰球第一。往年 3 月,在寰球最大规模的国内语义评测 SemEval 上,ERNIE 取得 5 项世界冠军。在刚刚落下帷幕的世界人工智能大会,百度文心(ERNIE)常识加强语义了解技术与平台取得了大会最高荣誉奖项“卓越人工智能引领者”(SAIL)奖。

这些冲破的获得,都离不开百度在相干方向上的前瞻布局和继续投入。

多模态语义了解
多模态语义了解是解决简单场景智能化利用的关键技术,近年来备受关注。

2010 年左右,科技产业处在迅速的变动之中,人们对信息媒介的需要已不仅仅局限于文字,而是向语音、图像等多个方向扩大。于是,简直在成立 NLP 部门的同一期间,王海峰就已开始着手布局语音技术和视觉技术,牵头组建了过后的“多媒体部”。

这一决定是十分具备前瞻性的。因为过后,除了与搜寻强相干的 NLP 业务,晚期百度并没有太多相干的智能技术需要。在多媒体部成立的初期,很多人也不晓得这些技术有什么用。

凭借在语音、视觉、语言与常识等畛域多年的技术积攒与交融,2018 年百度公布了以“多模态深度语义了解”为外围的百度大脑 3.0。百度大脑是百度 AI 核心技术引擎,包含视觉、语音、自然语言解决、常识图谱、深度学习等 AI 核心技术和 AI 开放平台。现在,百度大脑曾经向所有开发者凋谢了 260 多项 AI 能力,其中包含机器同传、拍照翻译、文档解析、图文审核、视频分类、对话情绪辨认、图文转视频等交融文本与语音、视觉技术的能力。

往年,百度在多模态语义了解上获得新冲破,提出了常识加强的视觉 – 语言预训练模型 ERNIE-ViL。ERNIE-ViL 首次将场景图常识融入多模态预训练, 刷新了 5 项多模态工作纪录,并登顶权威榜单 VCR。

除了这些之外,近年来,百度 NLP 还在语义计算、浏览了解、多轮对话、机器翻译、开放平台与数据等方向获得了突破性停顿,并实现了大规模产业化利用。

比照百度所获得的 NLP 技术成绩和 ACL 十年来的钻研趋势,咱们能够发现,这家公司对于 NLP 钻研趋势的把握是十分精准的,而这些都得益于王海峰等领军人物对该畛域的长期洞察。

正如非洲经济学家 Dambisa Moyo 在一本书里所提到的,“种一棵树,最好的工夫是十年前,其次是当初”。在 NLP 畛域,百度既没有错过十年前的黄金“种植期”,也没有在十年的每一个“当初”里松散。尊重技术的倒退法则,敏锐把握产业需要变迁,继续、动摇的投入,百度当年种下的一棵棵 NLP“小树”曾经长成一片树林,而且还在一直成长出新的树苗。

在王海峰、吴华等研究者的率领下,咱们有理由期待百度 NLP 的下一个十年。

百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。

正文完
 0