关于自然语言处理:NLP随笔一

35次阅读

共计 4717 个字符,预计需要花费 12 分钟才能阅读完成。

20 世纪 50 年代中期到 80 年代初期的感知器,20 世纪 80 年代初期至 21 世纪初期的专家系统,以及最近十年的深度学习技术,别离是三次热潮的代表性产物

Gartner2018 技术成熟度曲线,Gartner 每年公布的技术趋势曲线,聚焦将来 5 到 10 年间,可能产生微小竞争力的新兴技术

人工智能技术远未达到媒体所宣传的神通广大,无所不能。从图 1 中的技术倒退现状也可一窥端倪。AlphaGo 能够战败最好的人类棋手,但却不可能为你端一杯水。驰名机器人学者 Hans Moravec 早前说过:机器人感觉容易的,对于人类来讲将是十分难的;反之亦然。

人能够轻松做到听说读写,但对于简单计算很吃力;而机器人很难轻松做到用手抓取物体、以及走上坡路,但能够轻而易举地算出空间火箭的运行轨道。人类能够通过与日俱增的学习,轻松实现各种动作,但对于机器人来讲实现这些简略的动作难如登天。专家们称此实践为“莫拉维克悖论”(Moravec’s Paradox)。机器学习专家、驰名的计算机科学和统计学家 Michael I. Jordan 近日在《哈佛数据迷信评论》上发表文章,也认为当初被称为 AI 的许多畛域,实际上是机器学习,而真正的 AI 反动尚未到来。

业界统一认为,AI 的三要素是算法,算力和数据

从计算,到感知,再到认知,是大多数人都认同的人工智能技术倒退门路。那么认知智能的倒退现状如何?

首先,让咱们看一下什么是认知智能。复旦大学肖仰华传授已经提到,所谓让机器具备认知智能是指让机器可能像人一样思考,而这种思考能力具体体现在机器可能了解数据、了解语言进而了解事实世界的能力,体现在机器可能解释数据、解释过程进而解释景象的能力,体现在推理、布局等等一系列人类所独有的认知能力上

对于看、听、说、动作而言,感知智能曾经能够达到十分好的成果。而对于推理、情感、联想等能力,还须要更强的认知能力的体现

虚构生命根本能力领域

虚构生命倒退阶段

虚构生命 1.0,能够看做是聊天机器人的降级版本。本阶段最重要的特点是单点技术的整合,并能作为整体和人类进行交互。从性能上来看,依然是被动交互为主,但能够联合对用户的认知,进行用户画像和被动举荐。

咱们目前正在处于虚构生命的 1.0 阶段。在这个阶段,多轮对话、凋谢域对话、上下文了解、个性化问答、一致性和平安回复等依然是亟待解决的技术难题。同时,虚构生命也须要找到可落地的场景,做好特定畛域的技术冲破。

虚构生命 2.0,是目前正在致力前行的方向,在这个阶段,多模态技术整合已齐全成熟,虚构生命状态更为多样性,具备基于海量数据的联结推理及联想,对自我和用户都有了全面的认知,并可疾速进行人格定制。实现这个阶段可能须要 3 - 5 年。

虚构生命 3.0,初步达到强人工智能,具备超过人类的综合感知能力,并领有全面的推理、联想和认知,具备自我意识,并能达到人类程度的天然交互。随着技术的提高,咱们期待在将来十年至三十年实现虚构生命的 3.0。

语言是次要以发声为根底来传递信息的符号零碎,是人类重要的交际工具和存在形式之一。作用于人与人的关系时,是表白互相反馈的中介;作用于人和主观世界的关系时,是意识事物的工具;作用于文化时,是文化信息的载体(起源:维基百科)。语言与逻辑相干,而人类的思维逻辑最为欠缺

自底向上,自然语言解决须要通过对字、词、短语、句子、段落、篇章的剖析,使得计算机可能了解文本的意义

比方和机器人对话的过程中,对于音乐话题的了解,就须要用到命名实体辨认、实体链接等技术。举一个简略的例子,“我真的十分喜爱杰伦的双截棍”,就须要判断杰伦是一个人名,链接到知识库中“周杰伦”这样一个歌手实体,并且“双截棍”是一个歌名而不是一种器械。同时,还能够进行情感判断,是一个侧面的“喜爱”的情感。

传统的自然语言解决技术,还是以统计学和机器学习为主,同时须要用到大量的规定。近十年来,深度学习技术的衰亡,也带来了自然语言解决技术的冲破。这所有还须要从语言的示意开始说起。

家喻户晓,计算机善于解决符号,因而,自然语言须要被转化为一个机器敌对的模式,使得计算机可能疾速解决。一个很典型的示意办法是词汇的独热(one-hot)示意,也就是相当于每个词在词汇表里都有一个特定的地位。比如说有一个 10000 个词的词汇表,而“国王”是词汇表里的第 500 个词,那么“国王”就能够示意为一个一维向量,只有第 500 个地位是 1,其余 9999 个地位都是 0。但这种示意办法的问题很多,对语义相近但组成不同的词或句子如“国王”和“女王”,利用独热示意的向量内积,无奈精确的判断两者之间的类似度。

2013 年,Tomas Mikolov 等人在谷歌开发了一个基于神经网络的词嵌入(word embedding)学习办法 Word2Vec,岂但大大缩短了词汇的示意向量的长度,而且可能更好的体现语义信息。通过这种嵌入办法能够很好的解决“国王”-“男人”=“女王”-“女人”这类问题。感兴趣的读者能够参考互联网上大量的对于词嵌入的材料。

计算机可能疾速解决自然语言之后,传统的机器学习办法也进一步被深度学习所颠覆。相干算法在近年来的迭代速度十分快。以语言模型(Language Model)预训练方法为例,代表性办法有 Transformer,ELMo,Open AI GPT,BERT,GPT2 以及最新的 XLNet。其中,Transformer 于 2017 年 6 月被提出。ELMo 的发表工夫是 2018 年 2 月,刷新了过后所有的 SOTA(State Of The Art)后果。

不到 4 个月,Open AI 在 6 月,基于 Transformer 公布了 GPT 办法,刷新了 9 个 SOTA 后果。又过了 4 个月,横空出世的 BERT 又刷新了 11 个 SOTA 后果。2019 年 2 月,Open AI 公布的 GPT2,蕴含 15 亿参数,刷新了 11 项工作的 SOTA 后果。而 2019 年 6 月,CMU 与谷歌大脑提出了全新 XLNet,在 20 个工作上超过了 BERT 的体现,并在 18 个工作上获得了以后最佳成果。

除了算法和算力的提高,还有一个重要的起因在于,以前的自然语言解决钻研,更多的是监督学习,须要大量的标注数据,老本高且品质难以管制,而以 BERT 为代表的深度学习办法,间接在无标注的文本上做出预训练模型。在人类历史上,无监督数据是海量的,也就代表着这些模型的晋升空间还有很大。2019 年 7 月 11 日,Google AI 发表论文,就利用了惊人的 250 亿平行句对的训练样本。其利用成果咱们也刮目相待。

尝试用技术模仿人类的实在对话,在凋谢畛域就是个伪命题。因为在人类的对话过程中,一句话中所表白出的信息,不只是文字自身,还包含世界观、情绪、环境、上下文、语音、表情、对话者之间的关系等。

比如说“今天天气不错”,在晚上拥挤的电梯中和共事说,在秋游的过程中和驴友说,走在大巷上的男女朋友之间说,在滂沱大雨中对伙伴说,很可能代表齐全不同的意思。在人类对话中须要思考到的因素包含:谈话者和听者的动态世界观、动静情绪、两者的关系,以及上下文和所处环境等

而且,以上这些都不是独立因素,整合起来,能力真正反映一句话或者一个词所蕴含的意思。这就是人类语言的微妙之处。同时,人类在交互过程中,并不是等对方说完一句话才进行信息处理,而是随着说出的每一个字,一直的进行脑补,在对方说完之前就很可能理解到其所有的信息。再进一步,人类有很强的纠错性能,在进行多轮交互的时候,可能依据对方的反馈,修改本人的了解,达到单方的信息同步。

在上一节中,咱们也提到,自然语言解决技术很难解决推理问题。而推理是认知智能的重要组成部分。比如说对于问题“姚明的老婆的女儿的国籍是什么?”,一个可行的解决方案,就是通过大规模百科知识图谱来进行推理查问。

常识图谱被认为是从感知智能通往认知智能的重要基石。一个很简略的起因就是,没有常识的机器人不可能实现认知智能。图灵奖获得者,常识工程创始人 Edward Feigenbaum 已经提到:“Knowledge is the power in AI system”。张钹院士也提到,“没有常识的 AI 不是真正的 AI”。

拿上一节提到的 GPT- 2 算法来看,即便其文章续写能力让人赞叹,也只是再次证实了足够大的神经网络配合足够多的训练数据,就可能产生弱小的记忆能力。但逻辑和推理能力,依然是无奈从记忆能力中自然而然的呈现的。学界和企业界都寄希望于常识图谱解决常识互连和推理的问题。那么什么是常识图谱?简略来说,就是把常识用图的模式组织起来。可能这样说还不够明确,咱们举例子别离说下什么是常识,什么是图谱。

所谓常识,是信息的形象,举一个简略的例子来说,226.1 厘米,229 厘米,都是客观存在的孤立的数据。此时,数据不具备任何的意义,仅表白一个事实存在。而“姚明臂展 226.1 厘米”,“姚明身高 229 厘米”,是事实型的陈说,属于信息的领域。对于常识而言,是在更高层面上的一种形象和演绎,把姚明的身高、臂展,及姚明的其余属性整合起来,就失去了对于姚明的一个认知,也能够进一步理解姚明的身高是比普通人更高的。

维基百科给出的对于常识的定义是:常识是人类在实践中意识主观世界(包含人类本身)的成绩,它包含事实、信息的形容或在教育和实际中取得的技能。常识是人类从各个路径中取得得通过晋升总结与凝练的零碎的意识。

图谱的英文是 graph,直译过去就是“图”的意思。在图论(数学的一个钻研分支)中,图(graph)示意一些事物(objects)与另一些事物之间相互连接的构造。一张图通常由一些结点(vertices 或 nodes)和连贯这些结点的边(edge)组成。Sylvester 在 1878 年首次提出了“图”这一名词 [7]。如果咱们把姚明相干的“常识”用“图谱”构建起来

常识图谱是实现通用人工智能(Artificial General Intelligence)的重要基石。从感知到认知的逾越过程中,构建大规模高质量常识图谱是一个重要环节,当人工智能能够通过更结构化的示意了解人类常识,并进行互联,才有可能让机器真正实现推理、联想等认知性能。而构建常识图谱是一个系统工程

自顶向下的策略为专家驱动,依据利用场景和畛域,利用教训常识人工为常识图谱定义数据模式,在定义本体的过程中,首先从最顶层的概念开始,而后逐渐进行细化,造成构造良好的分类学层次结构;在定义好数据模式后,再将实体一一对应到概念中。

自底向上的策略为数据驱动,从数据源开始,针对不同类型的数据,对其蕴含的实体和常识进行演绎组织,造成底层的概念,而后逐渐往上形象,造成下层的概念,并对应到具体的利用场景中。

常识图谱能够辅助各种智能场景下的利用。谷歌在 2012 年最早提出“Knowledge Graph”的概念,并将常识图谱用到搜寻中,使得“搜寻能间接通往答案”。常识图谱还能辅助智能问答、决策推理等利用场景。

最初,构建常识图谱的老本依然较高。Heiko Paulheim 在其文章《How much is a Triple? Estimating the Cost of Knowledge Graph Creation》中,给出了几个典型的常识图谱的构建老本。其中,上世纪 80 年代开始的也是最早的常识图谱我的项目 CYC,均匀构建一条陈述句和断言的老本是 5.71 美元,而随着自然语言解决和机器学习技术的提高,DBpedia 构建每一条的老本升高到了 1.85 美分。即便如此,在真正工程化落地的时候,牵扯到多源数据的荡涤整合,一个常识图谱我的项目的老本还是居高不下。

自然语言解决与常识图谱联合能够实现肯定水平的推理,而常识图谱和深度学习联合能够实现肯定水平的可解释性,自然语言解决和深度学习联合,诞生了 BERT 等弱小的语言模型

正文完
 0