共计 2760 个字符,预计需要花费 7 分钟才能阅读完成。
自然语言解决(NLP)素有“人工智能皇冠上的明珠”盛誉,这也意味着语言与常识等认知层面的技术冲破将进一步促成 AI 深刻倒退。
8 月 25 日,以“把握常识、了解语言、领有智能”为主题的百度大脑语言与常识技术峰会举办,百度 CTO 王海峰发表宗旨演讲,解读百度语言与常识技术的倒退历程与最新成绩,与产学研各界分享技术及产业发展趋势和瞻望,百度团体副总裁吴甜和百度技术委员会主席吴华别离公布百度语言与常识技术系列产品和数据集共建打算,重磅推出 5 款产品的新公布,全面减速 AI 技术大规模利用。这是一场凝聚了百度在语言与常识畛域十年技术积攒和产业实际的盛会,必将带来深远影响。
▲ 百度 CTO 王海峰
十年:开拓者、深耕者、引领者
语言与常识技术是人工智能认知能力的外围。2010 年,百度成立自然语言解决部,在前瞻技术与产业格局上一直引领、翻新,十年间已成为中国 NLP 倒退的一面旗号。
峰会上,王海峰回顾,“在百度语言与常识技术的布局和倒退中,咱们始终在留神把握两个趋势,即技术发展趋势和产业发展趋势,并力争引领趋势。”
纵览百度语言与常识技术倒退历程,从 钻研办法、钻研对象、钻研方向、产业利用等 各个层面,布局残缺,一直打磨成熟,始终与利用的发展趋势、需要一脉相承,与产业接轨。
十年来,百度大脑语言与常识技术成绩丰硕,取得包含国家科技进步奖在内的 20 多个奖项,30 多项国内比赛冠军,发表学术论文超过 300 篇,申请专利 2000 多项。技术一直冲破翻新的同时,也在产品上翻新摸索,同时将当先的技术输入给开发者与合作伙伴,晋升各行业智能化程度。
全面分享语言与常识技术成绩
王海峰全面分享了百度语言与常识技术残缺布局和最新成绩。
首先,常识图谱是机器认知世界的重要根底,百度打造了世界上最大规模常识图谱,领有 超过 50 亿实体和 5500 亿事实,并在一直演进和更新。百度常识图谱利用于各行各业,每天的调用次数 超过 400 亿 次。
其次,在融入常识的根底上,语言理解能力一直加强。2019 年 3 月,百度提出常识加强的语义了解框架 ERNIE,在深度学习的根底上融入常识,同时具备继续学习能力,曾一举登顶寰球权威数据集 GLUE 榜单,首次冲破 90 分大关,刷新榜单历史。基于常识图谱和语义示意,冲破了浏览了解、对话了解以及跨模态深度语义了解等技术。
第三,语言生成是语言与常识技术中的重要组成部分。基于预训练技术的成功经验,百度提出基于多流机制的语言生成预训练技术,兼顾词、短语等不同粒度的语义信息,显著晋升生成成果。百度也摸索了多文档摘要生成,通过图构造语义示意引入篇章常识,在单文档和多文档摘要生成成果都有晋升。
利用零碎层面,对话零碎和机器翻译等成绩卓著。百度提出了常识图谱驱动的对话控制技术,以及首个基于隐空间的大规模凋谢域对话模型 PLATO 等,并推出智能对话定制和服务平台 UNIT,帮忙开发者高效构建智能对话零碎,实现规模化利用。百度翻译反对 200 多种语言,每天响应超过千亿字符的翻译申请,反对超过 40 多万家第三方利用,技术上,提出了多智能体联结学习、基于语义单元的同传模型、稀缺语种分组混合训练算法等。
百度大脑语言与常识技术的继续摸索和翻新获得了令业界注目的问题,同时这些技术以平台化的形式输入,赋能千行万业,继续晋升产业智能化程度。
重磅推出 5 款产品的新公布、2 大打算
王海峰首次公布了百度大脑语言与常识产品全景图。百度团体副总裁吴甜接续公布 语义了解技术与平台文心、智能文档剖析平台 TextMind 和 AI 同传会议解决方案 3 大新产品,同时公布了 6 项降级,包含智能创作平台的 3 个场景计划、以及智能对话定制与服务平台 UNIT 的 3 项全新降级。
▲ 百度团体副总裁吴甜
吴甜示意,“咱们始终致力于将语言与常识技术凝聚成一系列技术平台和产品,在利用中产生大量价值,为宽广开发者和产业实践者提供以语言与常识技术为外围驱动的系列产品。”
百度推出的语义了解技术与平台文心,基于深度学习平台飞桨打造,依靠当先的语义了解核心技术,集成优良的预训练模型、全面的 NLP 算法集、端到端开发套件和平台,提供一站式 NLP 开发与服务,让开发者更简略、高效地定制企业级 NLP 模型。文心通过了大量实在利用场景的淬炼,具备优良的工业级落地实力。
全新公布的智能文档剖析平台 TextMind,基于 OCR、NLP 技术,以文档解析为外围能力,反对文档比照与文档审核,具备“多快好省”的外围劣势,促成企业办公智能降级。
百度大脑智能创作平台 针对媒体利用场景再降级,全新推出智能策动、智能采编、智能审校三大媒体场景计划,进一步助力媒体人更快、更好地创作,堪称切中媒体人的“痛点”。
智能对话定制与服务平台 UNIT 降级 3 大个性:更智能的工作式对话了解、极致便捷的表格问答和交融通用的新对话引擎。此次 UNIT 全新降级的三大能力,将进一步升高工作式对话、智能问答的定制老本,并交融通用对话能力,晋升交互体验。
全新公布的 AI 同传会议解决方案,笼罩会议全场景、全流程,旨在打造用户随身的“会议同传专家”。吴甜现场展现了如何只用一台电脑和一部手机疾速搭建一套同传服务,只需点点鼠标、打几个字,就能疾速取得业余的同传服务。
数据匮乏、算力有余从来是语言与常识技术研发中面临的瓶颈。为冲破瓶颈,百度联结中国计算机学会、中国中文信息学会发动中文自然语言解决数据共建打算——千言,解决数据稀缺问题。千言一期由来自国内 11 家高校和企业的数据资源研发者独特建设,已涵盖凋谢域对话、浏览了解等 7 大工作,20 余个中文开源数据集。
百度技术委员会主席吴华示意,“将来,咱们心愿有更多的数据集作者可能参加共建千言,独特推动中文信息处理技术的提高,建设世界范畴的中文信息处理影响力。咱们打算在将来 3 年,面向 20 多个工作,收集和建设不少于 100 个中文自然语言解决数据集,笼罩语言与常识技术全副畛域。”
▲ 百度技术委员会主席 吴华(中)
中国中文信息学会副理事长兼秘书长 孙乐(左)
中国计算机学会自然语言解决专委会主任 周国栋(右)
一起正式启动千言打算
吴华还公布了百度语言与常识技术算力共享打算,通过百度 AI STUDIO 平台提供算力反对,让宽广开发者破除算力枷锁,专一于技术创新。
十年征程,百度语言与常识技术倒退历程中造就、吸引了大量寰球顶尖人才。会上,百度推出以王海峰为代表的百度 NLP“十年十人”,十年坚守,不忘初心,秉持“技术信奉”,勇攀技术顶峰,矢志不渝致力于让机器更好地了解世界、更好地服务于人。
正如王海峰所言,“咱们致力于更好地与学术界、产业界携手,推动语言与常识技术倒退,进而推动人工智能技术继续提高,为产业智能降级、社会经济高质量倒退贡献力量。咱们对将来充满信心,保持钻研和倒退让机器把握常识、了解语言、领有智能,持续冲破和翻新,为技术和社会提高做出更大奉献。”