关于自然语言处理:NLP随笔一

20 世纪 50 年代中期到 80 年代初期的感知器，20 世纪 80 年代初期至 21 世纪初期的专家系统，以及最近十年的深度学习技术，别离是三次热潮的代表性产物

Gartner2018 技术成熟度曲线，Gartner 每年公布的技术趋势曲线，聚焦将来 5 到 10 年间，可能产生微小竞争力的新兴技术

人工智能技术远未达到媒体所宣传的神通广大，无所不能。从图 1 中的技术倒退现状也可一窥端倪。AlphaGo 能够战败最好的人类棋手，但却不可能为你端一杯水。驰名机器人学者 Hans Moravec 早前说过：机器人感觉容易的，对于人类来讲将是十分难的；反之亦然。

人能够轻松做到听说读写，但对于简单计算很吃力；而机器人很难轻松做到用手抓取物体、以及走上坡路，但能够轻而易举地算出空间火箭的运行轨道。人类能够通过与日俱增的学习，轻松实现各种动作，但对于机器人来讲实现这些简略的动作难如登天。专家们称此实践为“莫拉维克悖论”(Moravec’s Paradox)。机器学习专家、驰名的计算机科学和统计学家 Michael I. Jordan 近日在《哈佛数据迷信评论》上发表文章，也认为当初被称为 AI 的许多畛域，实际上是机器学习，而真正的 AI 反动尚未到来。

业界统一认为，AI 的三要素是算法，算力和数据

从计算，到感知，再到认知，是大多数人都认同的人工智能技术倒退门路。那么认知智能的倒退现状如何？

首先，让咱们看一下什么是认知智能。复旦大学肖仰华传授已经提到，所谓让机器具备认知智能是指让机器可能像人一样思考，而这种思考能力具体体现在机器可能了解数据、了解语言进而了解事实世界的能力，体现在机器可能解释数据、解释过程进而解释景象的能力，体现在推理、布局等等一系列人类所独有的认知能力上

对于看、听、说、动作而言，感知智能曾经能够达到十分好的成果。而对于推理、情感、联想等能力，还须要更强的认知能力的体现

虚构生命根本能力领域

虚构生命倒退阶段

虚构生命 1.0，能够看做是聊天机器人的降级版本。本阶段最重要的特点是单点技术的整合，并能作为整体和人类进行交互。从性能上来看，依然是被动交互为主，但能够联合对用户的认知，进行用户画像和被动举荐。

咱们目前正在处于虚构生命的 1.0 阶段。在这个阶段，多轮对话、凋谢域对话、上下文了解、个性化问答、一致性和平安回复等依然是亟待解决的技术难题。同时，虚构生命也须要找到可落地的场景，做好特定畛域的技术冲破。

虚构生命 2.0，是目前正在致力前行的方向，在这个阶段，多模态技术整合已齐全成熟，虚构生命状态更为多样性，具备基于海量数据的联结推理及联想，对自我和用户都有了全面的认知，并可疾速进行人格定制。实现这个阶段可能须要 3 - 5 年。

虚构生命 3.0，初步达到强人工智能，具备超过人类的综合感知能力，并领有全面的推理、联想和认知，具备自我意识，并能达到人类程度的天然交互。随着技术的提高，咱们期待在将来十年至三十年实现虚构生命的 3.0。

语言是次要以发声为根底来传递信息的符号零碎，是人类重要的交际工具和存在形式之一。作用于人与人的关系时，是表白互相反馈的中介；作用于人和主观世界的关系时，是意识事物的工具；作用于文化时，是文化信息的载体（起源：维基百科）。语言与逻辑相干，而人类的思维逻辑最为欠缺

自底向上，自然语言解决须要通过对字、词、短语、句子、段落、篇章的剖析，使得计算机可能了解文本的意义

比方和机器人对话的过程中，对于音乐话题的了解，就须要用到命名实体辨认、实体链接等技术。举一个简略的例子，“我真的十分喜爱杰伦的双截棍”，就须要判断杰伦是一个人名，链接到知识库中“周杰伦”这样一个歌手实体，并且“双截棍”是一个歌名而不是一种器械。同时，还能够进行情感判断，是一个侧面的“喜爱”的情感。

传统的自然语言解决技术，还是以统计学和机器学习为主，同时须要用到大量的规定。近十年来，深度学习技术的衰亡，也带来了自然语言解决技术的冲破。这所有还须要从语言的示意开始说起。

家喻户晓，计算机善于解决符号，因而，自然语言须要被转化为一个机器敌对的模式，使得计算机可能疾速解决。一个很典型的示意办法是词汇的独热（one-hot）示意，也就是相当于每个词在词汇表里都有一个特定的地位。比如说有一个 10000 个词的词汇表，而“国王”是词汇表里的第 500 个词，那么“国王”就能够示意为一个一维向量，只有第 500 个地位是 1，其余 9999 个地位都是 0。但这种示意办法的问题很多，对语义相近但组成不同的词或句子如“国王”和“女王”，利用独热示意的向量内积，无奈精确的判断两者之间的类似度。

2013 年，Tomas Mikolov 等人在谷歌开发了一个基于神经网络的词嵌入（word embedding）学习办法 Word2Vec，岂但大大缩短了词汇的示意向量的长度，而且可能更好的体现语义信息。通过这种嵌入办法能够很好的解决“国王”-“男人”=“女王”-“女人”这类问题。感兴趣的读者能够参考互联网上大量的对于词嵌入的材料。

计算机可能疾速解决自然语言之后，传统的机器学习办法也进一步被深度学习所颠覆。相干算法在近年来的迭代速度十分快。以语言模型（Language Model）预训练方法为例，代表性办法有 Transformer，ELMo，Open AI GPT，BERT，GPT2 以及最新的 XLNet。其中，Transformer 于 2017 年 6 月被提出。ELMo 的发表工夫是 2018 年 2 月，刷新了过后所有的 SOTA（State Of The Art）后果。

不到 4 个月，Open AI 在 6 月，基于 Transformer 公布了 GPT 办法，刷新了 9 个 SOTA 后果。又过了 4 个月，横空出世的 BERT 又刷新了 11 个 SOTA 后果。2019 年 2 月，Open AI 公布的 GPT2，蕴含 15 亿参数，刷新了 11 项工作的 SOTA 后果。而 2019 年 6 月，CMU 与谷歌大脑提出了全新 XLNet，在 20 个工作上超过了 BERT 的体现，并在 18 个工作上获得了以后最佳成果。

除了算法和算力的提高，还有一个重要的起因在于，以前的自然语言解决钻研，更多的是监督学习，须要大量的标注数据，老本高且品质难以管制，而以 BERT 为代表的深度学习办法，间接在无标注的文本上做出预训练模型。在人类历史上，无监督数据是海量的，也就代表着这些模型的晋升空间还有很大。2019 年 7 月 11 日，Google AI 发表论文，就利用了惊人的 250 亿平行句对的训练样本。其利用成果咱们也刮目相待。

尝试用技术模仿人类的实在对话，在凋谢畛域就是个伪命题。因为在人类的对话过程中，一句话中所表白出的信息，不只是文字自身，还包含世界观、情绪、环境、上下文、语音、表情、对话者之间的关系等。

比如说“今天天气不错”，在晚上拥挤的电梯中和共事说，在秋游的过程中和驴友说，走在大巷上的男女朋友之间说，在滂沱大雨中对伙伴说，很可能代表齐全不同的意思。在人类对话中须要思考到的因素包含：谈话者和听者的动态世界观、动静情绪、两者的关系，以及上下文和所处环境等

而且，以上这些都不是独立因素，整合起来，能力真正反映一句话或者一个词所蕴含的意思。这就是人类语言的微妙之处。同时，人类在交互过程中，并不是等对方说完一句话才进行信息处理，而是随着说出的每一个字，一直的进行脑补，在对方说完之前就很可能理解到其所有的信息。再进一步，人类有很强的纠错性能，在进行多轮交互的时候，可能依据对方的反馈，修改本人的了解，达到单方的信息同步。

在上一节中，咱们也提到，自然语言解决技术很难解决推理问题。而推理是认知智能的重要组成部分。比如说对于问题“姚明的老婆的女儿的国籍是什么？”，一个可行的解决方案，就是通过大规模百科知识图谱来进行推理查问。

常识图谱被认为是从感知智能通往认知智能的重要基石。一个很简略的起因就是，没有常识的机器人不可能实现认知智能。图灵奖获得者，常识工程创始人 Edward Feigenbaum 已经提到：“Knowledge is the power in AI system”。张钹院士也提到，“没有常识的 AI 不是真正的 AI”。

拿上一节提到的 GPT- 2 算法来看，即便其文章续写能力让人赞叹，也只是再次证实了足够大的神经网络配合足够多的训练数据，就可能产生弱小的记忆能力。但逻辑和推理能力，依然是无奈从记忆能力中自然而然的呈现的。学界和企业界都寄希望于常识图谱解决常识互连和推理的问题。那么什么是常识图谱？简略来说，就是把常识用图的模式组织起来。可能这样说还不够明确，咱们举例子别离说下什么是常识，什么是图谱。

所谓常识，是信息的形象，举一个简略的例子来说，226.1 厘米，229 厘米，都是客观存在的孤立的数据。此时，数据不具备任何的意义，仅表白一个事实存在。而“姚明臂展 226.1 厘米”，“姚明身高 229 厘米”，是事实型的陈说，属于信息的领域。对于常识而言，是在更高层面上的一种形象和演绎，把姚明的身高、臂展，及姚明的其余属性整合起来，就失去了对于姚明的一个认知，也能够进一步理解姚明的身高是比普通人更高的。

维基百科给出的对于常识的定义是：常识是人类在实践中意识主观世界（包含人类本身）的成绩，它包含事实、信息的形容或在教育和实际中取得的技能。常识是人类从各个路径中取得得通过晋升总结与凝练的零碎的意识。

图谱的英文是 graph，直译过去就是“图”的意思。在图论（数学的一个钻研分支）中，图（graph）示意一些事物（objects）与另一些事物之间相互连接的构造。一张图通常由一些结点（vertices 或 nodes）和连贯这些结点的边（edge）组成。Sylvester 在 1878 年首次提出了“图”这一名词 [7]。如果咱们把姚明相干的“常识”用“图谱”构建起来

常识图谱是实现通用人工智能（Artificial General Intelligence）的重要基石。从感知到认知的逾越过程中，构建大规模高质量常识图谱是一个重要环节，当人工智能能够通过更结构化的示意了解人类常识，并进行互联，才有可能让机器真正实现推理、联想等认知性能。而构建常识图谱是一个系统工程

自顶向下的策略为专家驱动，依据利用场景和畛域，利用教训常识人工为常识图谱定义数据模式，在定义本体的过程中，首先从最顶层的概念开始，而后逐渐进行细化，造成构造良好的分类学层次结构；在定义好数据模式后，再将实体一一对应到概念中。

自底向上的策略为数据驱动，从数据源开始，针对不同类型的数据，对其蕴含的实体和常识进行演绎组织，造成底层的概念，而后逐渐往上形象，造成下层的概念，并对应到具体的利用场景中。

常识图谱能够辅助各种智能场景下的利用。谷歌在 2012 年最早提出“Knowledge Graph”的概念，并将常识图谱用到搜寻中，使得“搜寻能间接通往答案”。常识图谱还能辅助智能问答、决策推理等利用场景。

最初，构建常识图谱的老本依然较高。Heiko Paulheim 在其文章《How much is a Triple? Estimating the Cost of Knowledge Graph Creation》中，给出了几个典型的常识图谱的构建老本。其中，上世纪 80 年代开始的也是最早的常识图谱我的项目 CYC，均匀构建一条陈述句和断言的老本是 5.71 美元，而随着自然语言解决和机器学习技术的提高，DBpedia 构建每一条的老本升高到了 1.85 美分。即便如此，在真正工程化落地的时候，牵扯到多源数据的荡涤整合，一个常识图谱我的项目的老本还是居高不下。

自然语言解决与常识图谱联合能够实现肯定水平的推理，而常识图谱和深度学习联合能够实现肯定水平的可解释性，自然语言解决和深度学习联合，诞生了 BERT 等弱小的语言模型

关于自然语言处理:NLP随笔一

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）