作为人工智能畛域中热度最高、挑战最大的子畛域之一,自然语言解决(NLP)在最近几年失去了飞速的倒退。2020 年咱们又迎来了 GPT-3,1750 亿参数让其自诞生就引起了开发者们的强烈探讨。短短一年工夫,常识图谱的成熟度由萌芽期一跃达到预期收缩顶峰且十分靠近最高点…
近日,京东科技算法科学家、高级技术总监吴友政博士受邀做客 InfoQ《大咖说》直播间,与咱们分享了 NLP 畛域的 2020 年大事记,以及将来一年最值得期待的变动。
京东科技算法科学家、高级技术总监——吴友政
1.InfoQ:吴老师,您好,非常高兴有机会和您对话。先请您简略总结下 NLP 畛域在 2020 年的停顿。
吴友政: NLP 技术 2020 年依然在疾速倒退的车道上。内容生成方向,以 GPT- 3 为代表的预训练技术不仅在 NLP、甚至在整个 AI 畛域都受到了宽泛关注。GPT- 3 生成的文章连人类也难辨虚实。生成式 AI 也首次进入 Gartner 技术成熟度曲线,跟踪其成熟度和将来后劲。人机对话方向,谷歌去年初公布了 Meena、Facebook 后续公布了 Blenderbot、以及 Blenderbot 和 Pandora Kuki 两个聊天机器人的“约会”遭全网围观,都极大地推动了人机对话技术的倒退。此外,多模态智能、数字内容生成、图神经网络等技术都有十分大的停顿。影响力上,NLP 畛域中的 Transformer、预训练等技术在计算机视觉、语音等 AI 畛域都失去了宽泛的利用。落地利用上,人机对话相比于 2019 年有了十分显著的提高。在 2020 年的 Gartner 报告中,人机对话的地位相比 2019 更加靠前。该报告同时预测人机对话技术将在 2~5 年后进入平台期或者说成熟期。
综上,我认为过来一年 NLP 技术依然行驶在快车道上。
图 1:人机对话技术倒退回顾
2.InfoQ:如果回顾自然语言解决过来几年的倒退特点,您认为能够从哪几个纬度开展?
吴友政: 我感觉能够从学科倒退、技术趋势、人才状况、落地利用等多个维度开展。我先简略回顾一下 NLP 的倒退历程。2000 年之前,NLP 是一个小众的学科方向,而且 NLP 畛域的很多算法也是从其余畛域借鉴过去的,比方分词、词性标注用的马尔可夫模型借鉴自语音畛域。2000 年之后,Google 等搜寻公司的胜利带动了 NLP 学科的倒退。NLP 在 Query 了解、Doc 了解、Query-Doc 相关度计算等能够显著进步搜寻的相关性,进而改善搜寻品质。因为 NLP 涉及面广的特点,除搜寻之外,举荐、广告、舆情、社交等等对 NLP 技术都有大量的需要。2010 年左右,随着语音、计算机视觉等感知技术绝对成熟,以 NLP 为代表的认知智能受到了 AI 学者的宽泛关注。比尔盖茨曾说过:自然语言解决是人工智能皇冠上的明珠。2013 年左右,我认为 NLP 技术开始进入疾速倒退的通道,标志性事件是谷歌提出的词嵌入技术。词嵌入是一种词的示意办法,是将词汇映射到实数向量的办法,让咱们可不便地计算 2 个词的类似度,进而可实现句子嵌入 / 示意等。在这之后一系列新的有影响力的技术陆续提出:2015 年的 Attention, 2017 年的 Transformer, 2018 年的 ELMo、GPT-1、BERT, 2019 年的 GPT-2, 2020 年的 GPT-3(1750 亿参数), T5, 2021 年的 Switch Transformer(1.6 万亿参数)。落地利用上,以 NLP 为外围引擎的智能音箱、智能服务机器人、机器翻译曾经走进了咱们的日常生活。
具体到 2020 年,咱们统计了 2020 年 NLP 顶会论文,总结了一些察看。
从 NLP 工作看
(1)多模态人机对话是最 HOT 的钻研方向:研究课题波及工作型对话、凋谢域聊天、对话式举荐、对话式机器浏览了解等。咱们去年在斯坦福大学的对话式机器浏览了解数据集 QuAC 上取得了冠军。
(2)文本生成热度不减:文本生成与主动文摘、机器翻译、人机对话等工作关系严密。基于 Seq2Seq 框架、预训练语言模型、交融多模态和常识的可控文本生成始终是自然语言解决的热门钻研畛域。
(3)机器翻译:尽管仍位居钻研热点头部地位,但绝对人机对话来说关注度有所降落。
(4)其余的如主动文摘、Syntactic Parsing、关系抽取、命名体辨认等传统自然语言解决工作逐步式微。
从 NLP 模型看
(1)以 BERT/GPT 为代表的自编码 / 自回归 / 比照学习的预训练模型在自然语言了解、自然语言生成工作上一直刷榜,预训练 - 精调造成 NLP 新范式。
(2)交融常识成为晋升模型能力的万金油。全国常识图谱大会 CCKS 的参会人数逐年创记录也反馈了 KG 的热度。
(3)图神经网络强势崛起:图神经网络在文本分类、关系抽取、多跳浏览、数值计算等多个自然语言解决工作上的失去了宽泛的利用。
(4)多模态:多模态信息处理已渗透到多个畛域,如内容生成、人机对话等。
3.InfoQ:2018 年诞生的 BERT 在 2019 年引发了一波落地浪潮,成为 NLP 畛域去年最受关注的技术,您不便介绍下,BERT 或者说预训练模型在 2020 年有哪些值得注意的变动吗?京东在这方面有哪些实际和教训能够分享?
吴友政: 预训练技术的确是受到关注最多的技术之一,我往年也看到很多研究者对预训练技术都做了十分好的总结。那我简略总结一下预训练技术的发展趋势,不局限于 2020 年产生的。
趋势一: 从上下文无关的词嵌入(word embedding)走向上下文无关的预训练,比方 2018 年的 ELMo。
趋势二: 预训练模型和上游 Fine-tuning 模型走向对立。ELMo 预训练模型和上游诸如文本分类、序列标注等的精调模型是不统一的。咱们个别仅提取 ELMo 暗藏层信息,放到上游的 CNN/LSTM 等模型中。而 GPT 和 BERT 的呈现则把预训练模型和上游模型对立了,这是预训练技术倒退的一个重要变动。
趋势三: 预训练模型从或用于了解或用于生成工作走向同时实用于了解和生成工作的对立。自编码的 BERT 最早提出是做文本了解,自回归的 GPT 则是做生成。2020 年,预训练模型将了解和生成对立到 Encoder – Decoder 框架,谷歌往年提出的 T5 就是典型的代表。
趋势四: 基于文本 - 图像对、文本 - 视频对的多模态预训练。比方只在 Encode 框架下面做了解的 VL-BERT,基于 Encoder-Decoder 框架的 Unicoder-VL。
趋势五: 常识加强的预训练。代表模型有常识嵌入的语言模型 ERINE、模块化且解释性更强的常识嵌入办法 REALM、将常识图谱的信息引入到 BERT 中的 K -BERT、可插拔式的常识融入模型 K -Adapter,用于解决间断学习在 pre-training 的时候忘记之前学到的常识的问题。
趋势六: 预训练模型越来越大。2020 年公布的 GPT- 3 有 1750 亿个参数,往年 1 月份公布的 Switch Transformer 有 1.6 万亿的参数。北京智源人工智能研究院和清华大学 2020 年公布的中文预训练有 217 亿参数。2021 年可能会有更大的预训练模型公布。
趋势七: 更玲珑的预训练模型。预训练模型在利用到理论的产品或者商业化零碎须要满足线上推理、延时的要求。以 TinyBERT、ALBERT 为代表的模型是更小、更高效模型的代表。
以上是我察看到的预训练技术的几个趋势。具体到实际层面,以京东为例,预训练技术在产品上有十分多的利用。
一是 畛域迁徙。其实数据也不是越多越好,而是须要更多高质量的数据,而且须要和利用场景相匹配。比方京东要做批发畛域的很多 NLP 工作,咱们必定是要在通用的预训练模型的根底上,再联合批发数据做畛域适配。
二是上文提到的 常识加强的预训练。京东在这下面做了很多工作,提出了很多常识加强的预训练指标,将常识融入到预训练模型外面,采纳 Encode-Decode 架构,能够实现商品因素的编辑检测、商品类目分类、商品因素的摘要生成等,都是心愿将畛域常识或者特品工作的常识,融入到预训练外面,从而进步指标工作的成果。
三是 解决延时和老本问题。GPU 资源绝对比拟贵重,很多企业都没方法提供大规模的 GPU 机器供推理服务应用。常识蒸馏技术因而失去广泛应用。其次要蕴含两种形式:一是将大模型变成小模型,比方 12 层的 Transformer 变成六层或者三层。二是不同模型之间的蒸馏,比方 Transformer 外面的常识蒸馏到 TextCNN,其能够做到毫秒级响应。
4.InfoQ:咱们刚刚提到预训练模型的参数越来越大,您认为这在 2021 年会持续延续下去吗?
吴友政: 我感觉这必定是其中一个方向,将来会有钻研机构或者企业推出更大的模型。鼎力的确出奇观。就像咱们的一句老话:熟读唐诗三百首,不会吟诗也会吟。模型到底会变成多大是 2021 年十分值得关注的一个点。
5.InfoQ:2020 年,GPT- 3 的公布引发了业内的宽泛关注,开发者对其褒贬不一,您对 GPT- 3 有哪些评估?目前,GPT- 3 曾经被利用来做大量内容主动生成方面的事件,您不便介绍下目前主动生成内容的成果和难度别离如何?具体可利用在哪些场景?
吴友政: 正如大家从媒体上理解的一样,GPT-3 通过大量的提醒就能够生成一篇残缺的文章。然而 GPT- 3 生成的内容在常识、语言逻辑、前后呼应等方面还有很多问题。但 GPT- 3 在技术上的提高是毋庸置疑的:一、GTP3 验证了大规模自监督预训练模型能够达到很好的成果,就像 GTP- 3 文章中提出的一样:人们很难辨别文章到底是由机器生成的还是人类实现的,人类判断的准确率只有 12%。二、GTP- 3 强调本人是少样本或者零样本,这对理论利用是十分重要的。因为做产品的过程中遇到的最辣手的问题就是样本有余,钻研疾速达到好的冷启动成果是十分重要的课题。在这方面,GTP- 3 是十分有利用价值的。
在内容生成的实际层面,京东也做了很多十分有意思的摸索:基于图像生成技术的虚构试衣、AI 音乐生成、商品营销文案生成、AI 写诗、风格化 AI 书法字体生成、文本与图像的互相生成等等。其中,AI 商品营销文案生成的挑战是不仅要求机器生成语句通顺,合乎语法规定和语义逻辑的文章,还须要是用户违心浏览的商品文案,从而进步用户的点击转化。咱们在 AI 商品文案生成上获得的成果还是十分不错的,人工审核的通过率在 90% 以上,AI 生成的素材均匀点击率显著高于达人均匀。目前曾经笼罩了京东的 3000+ 个三级品类,在京东发现好货频道、社交电商京粉、搭配购、AI 直播带货等多个场景都有宽泛的利用。具体技术细节可参考:
《“ 多模态数字内容生成 ” 的技术摸索与利用实际》
6.InfoQ:咱们在后面的对话中也屡次提到多模态,咱们也看到业界有一些对多模态方面的探讨,您能够介绍一下多模态在 2020 年的停顿吗?
吴友政: 多模态在 2020 年确实受到学术界和产业界的关注。2020 年有很多场对于多模态信息处理的研讨会。咱们去年 10 月份在 CCF-NLPCC 会议期间举办了线下的多模态自然语言解决研讨会,邀请了来自 CV、NLP 以及艺术畛域的专家,介绍他们在多模态摘要、多模态对话、多模态与艺术的联合等方向上的最近研究进展
(https://36kr.com/p/950784094284677)。去年咱们也举办了第三届京东多模态人机对话挑战赛(https://jddc.jd.com, 当 AI 客服遇上「图文混排」发问,京东给电商 AI 来了场摸底考试),并公布了首个实在场景的多模态对话数据集 JDDC Corpus2.0。大赛吸引了来自高校、研究所、企业的 700 多名选手和 400 多支队伍加入。咱们心愿通过大赛和凋谢数据集独特推动多模态多轮人机对话技术的停顿。
在多模态利用下面,京东将多模态人机对话利用到了导购机器人。线上客服导购对话中有超过 16% 含有多模态信息,就是含有图片信息,所以导购客服须要有多模态语义了解的能力,而后更好的服务客户,因为如果有 16% 的会话都答复不了,是很遗憾的。
6.InfoQ:在 NLP 畛域,常识图谱也是倒退比拟好的一个分支,您不便从技术和利用落地两方面简略总结常识图谱 2020 年的倒退状况以及将来趋势吗?
吴友政: 交融常识在大多数状况下都能显著进步模型成果。基于常识图谱改良预训练模型,无论是通过常识领导 Mask,或是将常识编码进预训练模型,都是近期的钻研热点。二、用常识图谱解决低资源的问题,比方解决举荐的冷启动问题就十分依赖常识图谱。三、常识图谱在文本生成方面有宽泛的利用,咱们提出利用常识图谱进步文本生成的忠实度,利用常识图谱领导解码器进行受限解码,从而进步文本输入的冗余性,进步可读性等。
在实际层面,咱们正在建设 2 个常识图谱:第一个是以商品为核心的商品常识图谱,包含商品、用户、场景等实体的常识图谱。第二个是药学常识图谱、是以药品为核心的构建药品与药品、药品与疾病、药品与人群等关系。常识图谱在京东有丰盛的落地场景,我这里举几个例子:
(1)第一个利用场景是商品图谱问答:在售前场景,用户征询中有 2% 左右的问题(不同品类比例不同)波及商品属性(这款洗衣机是否有杀菌清洁性能)。咱们的解决办法是 KBQA 技术。
(2)第二个场景是应用常识图谱进步商品文案写作的忠实度。一个合格的商品营销文案的根本要求是生成的文案不能呈现事实性谬误,比方对于一款“变频冰箱”,模型生成的文案不能形容成“定频”。咱们从两个方面晋升文本的忠实度。一是对商品常识图谱中的商品属性信息进行建模;二是咱们提出了一个属性信息 Only-copy 机制,在解码属性词时,仅容许从输出文本中复制。
(3)第三个场景是企业洽购场景:咱们构建了洽购常识图谱,图谱中包含商品、供应商、制造商、品牌商、行业、场景等实体的关系。基于洽购图谱,咱们提供一系列的智能选品、智能比价、供应商智能匹配等多个智能化洽购服务工具与利用。
(4)第四个场景是基于药学常识图谱的处方审核引擎。药学常识图谱是从药品说明书中通过规定、模型抽取的。这个性能曾经在京东的互联网医院上线,每天审核大量的的处方,可帮忙药剂师进步处方审核的效率。
7.InfoQ:在落地方面,您认为当下 NLP 畛域比拟成熟的是什么?正在飞速发展中的是什么?为什么?
吴友政: 比拟成熟的 NLP 技术方向是文本了解与数据挖掘,包含搜寻的 Query 了解、举荐的内容了解等、机器翻译、人机对话等。这些曾经走进咱们的日常生活。
飞速发展的 NLP 技术包含数字内容生成、常识图谱、多模态、虚构数字人等。这些技术得以疾速倒退我感觉有两方面的起因:一是深度学习等技术的疾速很快,让这些 NLP 利用的实现变成了可能,而且在某些特定场景还能达到不错的成果。另一方面,微小的需要促成了技术提高,是技术提高的驱动力。
8.InfoQ:依据您的理解,目前 NLP 畛域面临的比拟大的挑战是什么?有一些不错的解决思路了吗?
吴友政: NLP 次要有三大挑战:歧义性、多样性、常识示意 / 构建 / 交融。除此之外,还有符号化的常识跟神经网络之间的联结建模、推理能力、可解释 NLP 等都存在很大的挑战。
我感觉有些挑战,目前还没有特地成熟的计划。不过钻研人员都在做很多摸索和尝试,也获得了很好的停顿。比方低资源 NLP 正在通过预训练、无监督学习、半监督学习、迁徙学习、少样本学习(Few-shot Learning)、零样本学习(Zero-shot Learning)一直获得提高。
语言的歧义性 / 多样性的挑战也可通过多模态输出补救单模态信息的缺失,进而进步文本单模态模型的成果。
9.InfoQ:将来一年,自然语言解决畛域的哪些停顿可能是值得关注的?京东在这方面有哪些布局?
吴友政: 预测是很难的事件,我能够简略说下集体比拟关注的方向吧。
第一个还是预训练技术:基于自回归、自编码、比照学习的预训练是十分值得关注的方向。预训练会向更大、更玲珑、更高效的方向倒退。
第二个是常识与数据联合驱动:模型退出常识领导,通过常识和数据两者联结实现深度语义了解,撑持下层 NLP 工作。将来常识图谱将朝着数据规模更大、模态和关系更丰盛、建模办法更加主动和智能的方向去倒退。
第三个是多模态拟人化人机交互。简单交互场景下的多模态人机交互服务是人工智能的重要技术需要。人机交互从命令式交互、图形交互、天然交互、开始走向多模态多轮对话的交互。多模态多轮对话的人机交互要求机器具备人类听觉、视觉、情感交换能力、场景常识储备、语义了解和多轮交互能力。而且多模态多轮对话人机交互也有微小的利用需要。
京东在上述几个方向都已发展了一些工作。在多模态拟人化人机交互上,咱们申请了国家级的重大项目,心愿在这个畛域实现一些技术冲破。在利用上,多模态拟人化交互技术会利用到智能情感客服,智能营销导购和智能生产媒体三个典型的场景。
NLP 技术还有很大的倒退空间,十分值得期待。
举荐浏览
- 下笔如有神:这是一个基于营销行业的 AI 技术实际
- NLP 带来的“科幻感”超乎你的设想 – ACL2020 论文解读(一)
- AI 科学家带你疾速 Get 人工智能最热技术
欢送点击【京东科技】,理解开发者社区
更多精彩技术实际与独家干货解析
欢送关注【京东科技开发者】公众号