关于自然语言处理:NLP随笔二

39次阅读

共计 2230 个字符，预计需要花费 6 分钟才能阅读完成。

当 AI 在某一个单点工作上的体现靠近或者超过人类的时候，就会给行业带来微小的商机。在视觉分类、检索、匹配、指标检测等各项任务上，随着相干算法越来越精确，业界也开始在大量商业场景中尝试这些技术

深度学习在计算机视觉、语音辨认等感知智能技术上率先取得成功并不是偶尔。深度学习秉承连贯主义学派的范式，相较传统统计机器学习技术的最大进化在于其利用了高于统计办法数个数量级的参数和极其简单的函数组合，通过引入各种非线性和多层级感知能力，形成了远强于统计机器学习模型的拟合能力。ResNet-152 的参数量曾经达到六千万的级别，GPT-2.0 的参数量达到了惊人的 15 亿。而其余上亿甚至数亿级别的网络更是不可胜数。如此简单的模型对数据的拟合能力达到了前所未有的程度，然而同时也极大进步了过拟合的危险。这对数据提出了极高的要求。训练数据的数量、维度、采样平衡度、单条数据自身的浓密度（非 0、不稠密的水平），都须要达到极高的程度，能力将过拟合景象升高到可控范畴。

视觉信息（图像、视频）恰好是这样一类天然间断信号：一张图片通常就有数百万甚至上千万像素，而且每个像素上通常都有色彩，数据量大、数据的示意浓密、冗余度也高。往往在失落大量间接视觉信号的状况下，人还能迅速了解图片的语义信息，就是因为天然间断信号，如图像中的场景和物体往往具备视觉、构造和语义上的共性。一个 30MB 的位图图片能被压缩到 2MB 而让人眼根本无奈感知区别；一个 30MB 的 wave 音频文件被压缩到 3MB 的 MP3 还能根本放弃次要旋律和听感，都是因为这类天然间断信号中存在大量不易被人的感官所感知的冗余。

视觉信息这种的丰盛和冗余度，让深度神经网络得以从监督信号中一层层提炼、一层层感知，最终学会局部判断逻辑。深度神经网络在感知智能阶段中在视觉工作和语音工作上的胜利，离不开视觉、语音信号本身的这种数据特点

明天，属于感知智能的视觉和语音利用曾经全面开花，但属于认知智能的自然语言解决却倒退滞后。这种倒退状态与自然语言解决技术中的数据特色也有密不可分的关系。

绝对于图片、语音给出的间接信号，文字是一种高阶形象离散信号。较之图片中的一个像素，文本中一个单元信息密度更大、冗余度更低，往往组成句子的每一个单词、加上单词呈现的程序，能力正确表白出残缺的意思。如何利用单个文本元素（字 / 词）的意思，以及如何利用语句中的程序信息，是近年来自然语言解决和文本剖析技术的次要摸索脉络

2013 年，词的分布式向量示意（Distributed Representation）呈现之前，如何在计算机中高效示意单个字 / 词是难以逾越的第一个坎。在只能用 One-hot 向量来示意字 / 词的年代，两个近义词的示意之间的关系却齐全独立，语义类似度无奈计算；上示意一个字 / 词所需的上万维向量中只有一个维度为 1，其余维度都为 0，稠密度极高。面对这类信号，深度神经网络这类简单的模型所善于的化繁为简的形象、提炼、总结能力便大刀阔斧，因为输出信号曾经极简到了连最根底的自我示意都难以做到。

而分布式词向量将语言的特色示意向前推动了一大步。分布式词向量提出了一个正当的假如：两个词的类似度，能够由他们在多个句子中各自的上下文的类似度去度量，而上下文类似的两个词会在向量空间中由两个靠近的向量来示意。这种做法局部赋予了词向量“语义”，因而咱们不用再让机器去查百科全书通知咱们“苹果”的近义词是“梨子”，而是间接从大量的互联网语料中去学习，原来“苹果”的近义词也能够是“三星”、“华为”。因为人们经常会说“我购买了一个苹果手机”，也常说“我购买了一个三星手机”，模型会敏锐的学习到“苹果”和“三星”在大量语料中呈现时其上下文高度类似，因此认为两个词类似。分布式词向量让无语义、极稠密的 One-hot 向量死于非命，而为大家提供了嵌入语义信息、浓密的特色示意，这才使得深度神经网络在自然语言解决和文本剖析上的利用真正变得可能。

捕获语句中在独立的词汇合根底之上、词序列形成的句子构造信息也是自然语言解决和文本剖析中的一个次要方向。传统条件随机场（CRF）思考了前后相邻元素和以后元素之间的依赖；长短时记忆网络模型（LSTM）以一种衰减模式思考了以后元素之前的元素序列；seq2seq 通过注意力和编解码的机制使得解码时的以后元素不光能用上曾经解码结束的元素序列，还能用上编码前的序列的残缺信息；近期各类基于 Transformer 构造，如 ELMo、BERT、GPT-2.0、XLNet，则利用两阶段（基于自编码的预训练加基于工作的调优）模式，可能以自监督的形式更好地利用大规模的无标注语料训练不同句子构造中词语之间的关系，并且冲破传统线性序列构造中存在的难以建设长距离、双向依赖关系的问题，学习到品质更高的两头语言模型，再通过调优就能在文本生成、浏览了解、文本分类、信息检索、序列标注等多个工作上获得以后最为当先的准确率。

为自然语言工作退出“常识”，也是另一个新兴重要摸索方向，这个方向则与常识图谱技术紧密结合

就像 BERT、GPT-2.0、XLNet 在两阶段范式上的必由之路，咱们也认为根底语言模型在不同工作上能够存在一些不变性，但在不同场景中肯定要做非凡语料与工作下的调优与适配

但认知智能在金融、公安、媒体等场景中的变动局部给 AI 厂商带来的挑战非常明显。一个算法往往在不同场景下要利用不同的标注语料去造成不同的模型，一个媒体场景的 10 类新闻分类模型，无奈给另一个媒体的 12 类分类体系应用

正文完