关于自然语言处理:NLP-系列Bert-词向量的空间分布

52次阅读

共计 1898 个字符，预计需要花费 5 分钟才能阅读完成。

作者：京东批发彭馨

咱们晓得 Bert 预训练模型针对分词、ner、文本分类等上游工作获得了很好的成果，但在语义类似度工作上，体现相较于 Word2Vec、Glove 等并没有显著的晋升。有学者钻研发现，这是因为 Bert 词向量存在 各向异性（不同方向体现出的特色不统一），高频词散布在狭小的区域，凑近原点，低频词训练不充沛，散布绝对稠密，远离原点，词向量整体的空间散布出现锥形，如下图，导致计算的类似度存在问题。

为什么 Bert 词向量会出现圆锥形的空间散布且高频词更凑近原点？

查了一些论文发现，除了这篇 ICLR 2019 的论文《Representation Degeneration Problem in Training Natural Language Generation Models》给出了肯定的实践解释，简直所有提及到 Bert 词向量空间散布存在问题的论文，都只是在援用该篇的根底上，间接将词向量压缩到二维立体上进行观测统计（肉眼看的说服力显著不够😂）

图中（b）（c）能够看出原生 Word2Vec 和分类工作的词向量经 SVD 投影，散布在原点四周，而原生 Transformer 则散布在圆锥形区域，且任意两个词向量都正相干，会升高模型性能，这种景象被称为 表征进化问题。

①造成这种景象的直观解释是：在模型训练过程中，真词的 embedding 会被推向暗藏状态的方向，而其余词会被推向其负方向，后果是词汇表中大多数单词的嵌入将被推向与大多数暗藏状态负相关的类似方向，因而在嵌入空间的部分区域中汇集在一起。
②实践解释则是剖析未呈现词的嵌入，发现表征进化和暗藏状态的构造无关：当暗藏状态的凸包不蕴含原点时，进化呈现，并且当应用层归一化进行训练时，很可能产生这种状况。并发现低频词很可能在优化过程中被训练为彼此靠近，因而位于部分区域。

论文将对实践解释局部给出证实，上面从我的了解，来解读一下😂，最初再简略说一下另外两篇对 Bert 词向量观测统计的论文。

在介绍之前，先相熟几个对于 凸优化 问题的概念（不晓得其实也问题不大😂）：

凸集：

凸包：
点集 Q 的凸包是指一个最小凸多边形，满足 Q 中的点或者在多边形边上或者在其内。（最小的凸集）

锥：

凸锥：
如果一个汇合既是锥，又是凸集，则该汇合是凸锥。

1）未呈现词

因为不容易间接剖析高、低频词，作者另辟蹊径，抉择和低频词比拟类似的 未呈现词 来剖析指标函数。

因为其余参数固定，则上式等价于：

文中说定理 1 中的 A 不言而喻，那就只能大家自行了解这个凸集了。B 则是对下面最小化公式的求解，上面给出证实

证实：

以上还是很好了解的，定理 1 阐明未呈现词的向量会被优化无穷远，远离原点（模越来越大）。定理 2 则是阐明词向量的散布不蕴含原点，而是在原点的一侧

2）低频词

低频词的剖析则是在未呈现词的根底上，因为剖析低频词的 embedding 对损失函数的影响，将损失函数分为了两局部：

总损失函数为：

原来定理 3 才是了解路上的最大绊脚石！

上面简述一下对词向量进行观测统计的论文

论文 1《On the Sentence Embeddings from Pre-trained Language Models》

其实这篇论文就是字节的 Bert-flow（不相熟 Bert-flow 可见《比照学习——文本匹配》）。论文计算了 词嵌入与原点的均匀 l2 间隔，并依据词频做了排序（词频越高排名越靠前，第 0 位词频最高），得出高频词凑近原点、低频词远离原点的论断，如下表上半局部：

表的下半局部则为 词嵌入和它的 k 个近邻之间的均匀 l2 间隔和点积，能够看出低频词相较于高频词，和它们的 k 近邻间隔更远，阐明低频词绝对高频词散布更稠密。

论文 2《Learning to Remove: Towards Isotropic Pre-trained BERT Embedding》

该论文则是通过 随机计算两个词的类似度，发现都远大于 0 （阐明词向量的方向根本都统一，不统一不会都远大于 0），以此阐明词向量不是均匀分布在向量空间中，而是散布在一个狭隘的圆锥体中。

都有实践解释了，论断天然就是 Bert 词向量的确存在表征进化问题，词向量存在各向异性，高频词间隔原点更近，低频词训练不充沛，远离原点，整体散布出现圆锥形，导致其不适用于语义类似度工作。不过不晓得该实践解释有没有压服你😄😄😄，有不同见解或疑难，欢送前来交换。
针对此类问题，能够采纳一下办法对其进行纠正，如论文 [1] 中退出 cos 正则，论文 [2] 中将锥形散布转化为高斯分布。因为词向量有问题，句向量天然跑不了，所以《比照学习——文本匹配》中的算法其实也都是为了解决这个问题。

附：（定理 3 证实）

正文完