百度AI闪耀ACL2020展现多项前沿技术举办首届机器同传研讨会

102次阅读

共计 3234 个字符,预计需要花费 9 分钟才能阅读完成。

欢送关注【百度 NLP】官网公众号,及时获取更多业界前沿技术!


近日,第 58 届国内计算语言学协会年会 ACL 2020(The Association for Computational Linguistics) 于线上开启。这次会议,百度共有 11 篇论文被录用,笼罩自然语言解决泛滥前沿钻研方向;百度联结谷歌、Facebook、清华大学等寰球顶尖机构,独特举办首届同声传译研讨会;在线上展台主题技术 TALK 环节,百度还就凋谢域人机对话技术、ERNIE 核心技术等业内关注的话题开展分享,展示了中国企业在自然语言解决及人工智能畛域的技术创新与落地实际能力。

ACL 成立于 1962 年,是自然语言解决畛域影响力最大、最具生机的国内学术组织之一。自成立之日起,致力于推动计算语言学及自然语言解决相干钻研的倒退和国内学术交流。百度的自然语言解决技术,在技术创新及利用上始终保持当先,始终被视为自然语言解决钻研界的“第一梯队”,此次在 ACL 2020 大会中的亮眼体现,正是源于百度在技术畛域的长期积攒。

百度 11 篇论文被收录,扎实 AI 技术彰显国内影响力

ACL2020 共收录百度 11 篇论文

除了在国内 AI 学界的影响力外,ACL 无论是审稿标准还是审稿品质,都是当今 AI 畛域国内顶级会议中公认的翘楚。

本届大会百度共有 11 篇论文被收录,笼罩了人机对话零碎、情感剖析 / 预训练示意学习、NLP 文本生成与摘要、机器翻译 / 同声翻译、常识推理、AI 辅助临床诊断等诸多自然语言解决界的前沿钻研方向,提出了包含端到端凋谢域生成模型 PLATO、面向凋谢域对话的基于图谱的对话管理机制、情感常识加强的语言模型预训练方法、基于图示意的多文档生成式摘要办法 GraphSum 等诸多新框架、新算法、新数据,不仅极大晋升了相干畛域的钻研程度,也将推动人机交互、机器翻译、智慧医疗等场景的技术落地利用。

此次 ACL 2020 的审稿周期,从去年 12 月始终继续到往年 4 月,相比今年简直减少了一倍。会议投稿数量为 3088 篇,共有 77 篇论文被接管,包含 571 篇长论文和 208 篇短论文,接管率仅为 25.2%。百度 11 篇论文被收录的问题,不仅意味着研究成果失去了国内学术界的认可,也证实了其钻研自身在试验严谨性、思路创新性等方面的实力。

领衔举办 ACL 2020 首届机器同传研讨会,百度技术当先性失去公认

同声传译以其高效的信息传递形式,广泛应用于国内会议、商务谈判、新闻公布、法律诉讼等多种跨语言交换场景。机器同传联合了机器翻译(Machine Translation)、语音辨认(Automatic Speech Recognition)和语音合成(Text-To-Speech)等人工智能技术,曾经成为重要的前沿钻研畛域。目前,机器同传还须要攻克高鲁棒性、高翻译品质、低延时的相干问题。

本次会议中,百度联结国内外顶尖企业和高校独特举办寰球首届同声传译研讨会,会集包含机器翻译、语音解决和人类口译畛域的钻研和从业人员,独特就机器同传架构、翻译模型、数据资源等问题开展研究。

百度技术委员会主席、百度自然语言解决首席科学家吴华受邀做线上报告

研讨会有多场高质量主题演讲,百度技术委员会主席、百度自然语言解决首席科学家吴华等国内外多名专家就机器同传钻研现状、面临挑战以及将来倒退进行探讨,加深了机器同传与口译两个畛域之间的交换,极大地推动了机器同传技术倒退以及机器和人工同传的协同单干。

在本次研讨会同期举办的国内首届同传评测较量中,百度行业首发业内最大规模面向实在场景的中英同传数据,涵盖信息技术、经济、文化、生物、艺术等多个畛域。 同时,基于百度深度学习平台飞桨的一站式 AI 开发实训平台百度大脑 AI Studio,百度为参赛选手提供在线编程环境、收费 GPU 算力、海量开源算法和凋谢数据,帮忙开发者疾速创立和部署模型。

展示多个技术亮点,百度线上展台主题技术 TALK 引关注

在本次大会的线上展台主题技术 TALK 环节,百度也展现出多个亮点,体现出百度当先的技术创新与落地实际能力,围绕 ERNIE 核心技术、凋谢域人机对话技术、智慧医疗、生物医药等业内关注的话题,百度献上了精彩的演讲。

在展台主题技术 TALK 环节,百度钻研人员做出主题为《ERNIE 的技术原理、平台与利用》的分享。百度提出了常识加强的语义示意模型 ERNIE 及继续学习语义了解框架 ERNIE 2.0,在 16 个中英文工作上超过国内最好成果,获得了 SOTA 的成果。去年 12 月,ERNIE 在国内权威的通用语言了解评估基准 GLUE 上首次冲破 90 大关,超过人类三个点,获得寰球第一。往年 3 月,在寰球最大规模的国内语义评测 SemEval 上取得 5 项世界冠军。

近期,百度又相继公布了面向生成的预训练技术 ERNIE-Gen 和常识加强的视觉 - 语言预训练模型 ERNIE-ViL。ERNIE-Gen 首次提出基于多流机制生成残缺语义片段,在 5 个生成类工作上获得了 SOTA 成果。ERNIE-ViL 首次将场景图常识融入多模态预训练, 刷新了 5 项多模态工作纪录,并登顶权威榜单 VCR。在刚刚举办的世界人工智能大会上,百度文心(ERNIE)常识加强语义了解技术与平台取得了大会最高荣誉奖项“卓越人工智能引领者”(SAIL)奖。

在《基于用意图谱的凋谢域对话生成框架》分享中,百度钻研人员介绍到,为了晋升多轮对话下的整体对话品质,提出基于用意图谱的对话生成框架,在该框架中引入显式的对话管理机制,以加强对多轮对话流的控制能力。在公开数据集上的试验结果表明,以上模型或零碎在主题连贯性、对话指标疏导成功率等要害多轮成果指标上显著超过基线模型。

同时,百度借助这次展台技术 Talk 公布了业界首个基于隐变量的大规模对话模型 PLATO 以及基于 PLATO 相干工作扩大降级的 PLATO-2。该模型应用了最多 16 亿参数,公布了中英文版本。其中,英文成果超过了 Google 的 Meena 和 Facebook AI Research 的 Blender,中文模型也远超过现有基线。

在主题为《基于计算语言学的新冠病毒剖析和疫苗设计算法》的分享中,针对新冠疫情,百度钻研人员把自然语言解决畛域的经典句法分析算法移植到核酸序列构造剖析,介绍了寰球首个线性工夫的 RNA 构造预测算法 LinearFold,能够将新冠病毒基因组全序列构造剖析的工夫从 55 分钟升高到 27 秒。在此基础上,百度还研发出了寰球首个 mRNA 疫苗序列设计算法 LinearDesign,能够设计出构造最稳固的疫苗序列。对于新冠 S 蛋白,该算法 16 分钟内就可设计出优化疫苗序列,解决了 mRNA 疫苗研发中的一个重大难题。目前,百度正在踊跃推动和中国疾控中心、各大疫苗公司和科研机构的单干。

在主题为《自然语言解决和常识图谱技术在临床辅助决策中的利用钻研》的演讲中,百度钻研人员分享了灵医智惠在临床辅助决策中利用。以百度世界领先的中文自然语言解决和常识图谱等技术为根底,灵医智惠打造了弱小的医疗认知计算能力,造成了医疗场景下的语言、常识和认知计算三位一体的临床辅助决策引擎。

近年来,中国 AI 企业、开发者及高校在国内 AI 顶会上的体现也愈发亮眼。ACL2020 大会中,无论是论文入选量、领衔举办研讨会、同传较量,百度都展现出中国 AI 行业头雁的实力。百度 NLP 是百度 AI 技术和利用的萌芽终点和带动力量,始终聚焦外围前沿,继续引领技术创新,继续引领中国 NLP 技术倒退方向,不仅为此次大会交上了一份称心的答卷,也为中国 AI 崛起、走向世界倒退奉献了重要的力量。

举荐浏览

百度 11 篇论文被国内自然语言解决顶级会议 ACL 2020 录用

对话智能新高度:百度公布超大规模凋谢域对话生成网络 PLATO-2

百度文心(ERNIE)荣获 2020 世界人工智能大会最高荣誉 SAIL 奖

百度自然语言解决(Natural Language Processing,NLP)以『了解语言,领有智能,扭转世界』为使命,研发自然语言解决核心技术,打造当先的技术平台和翻新产品,服务寰球用户,让简单的世界更简略。

正文完
 0