关于nlp:词对齐任务依附于机器翻译

前情概括

词对齐工作分为三大实现形式，详情见词对齐工作概述，此为其一。

NMT附丽下的word alignment

说道机翻显然就想到transformer，其encoder-decoder构造其实即使是在应用了lstm等模型上也是这样的，附丽在NMT的word alignment工作就能够间接应用seq2seq的输入对输出的词attention（动图https://www.bilibili.com/vide…，36:00）来表征word alignment。

词互信息（PMI)直算

这个是很intuitive的办法，我不应用任何模型，间接用概率统计的办法，算出两词间的互信息值，很多文章里叫PMI（pointwise mutual information），间接用这个值作为根据，填出词相关矩阵。
互信息是什么？这个场景下的互信息怎么算？见https://blog.csdn.net/index20…。

附丽NMT的词对齐

这种模式的word alignment的最终解决形式是求得word的相关矩阵，用分数示意各个词的相关度，文章中名词叫做soft align。
经典seq2seq+att的模型和transformer based模型会在decoder阶段失去以后输入词与原sentence的词的attention，利用此能够组成相关矩阵。
对于老式的seq2seq+att来说，

对于transformer来说，

值得注意的一点是，只管bert是在transformer的根底上倒退来的，只取了transformer的encoder，在文字了解、浏览等工作有宽泛应用和很好成绩，然而在机器翻译这一工作上bert encoder的体现很个别，甚至不如lstm等老牌rnn，连带的word alignment也不算好(ACL 2019)。

MT和词对齐都做得好 (EMNLP 2019)

文章简介挑明，只管机翻工作NMT完爆SMT，然而词对齐工作概率统计办法依然是下风
on the closely related task of word alignment, traditional statistical word alignment models often remain the go-to solution.
也就是只管深度学习fancy一点，在词对齐工作上还是打不过概率统计模型。
本文提出既能很好的机翻，又能很好的词对齐的模型。

办法

在原有的transformer根底上，减少词对齐loss（文章标识为multi-task），和扩增了attention的范畴（文章标识full-context）。

减少词对齐loss：新设立一个相关矩阵$G$，拿transformer的倒数第二层的att做$G$的label，用KL散度做词对齐的loss。
扩增attention：transformer原型decoder阶段只计算后方的att，但词对齐是不论先后的，此文扩增了att的范畴，叫做full context。

eval

giza++做baseline，在应用了giza++做训练信息后的模型能力在词对齐工作上战胜giza++。

MarianNMT

自身是一个汇合了很多seq2seq和transformer的机器翻译的工具箱，word alignment能够依附于机器翻译，应用src的word embedding与target embedding计算词汇的相关矩阵。

从可解释性角度进行word align （ACL 2019）

前言

文章借鉴了LRP删除法判断重要性的办法(ACL 2016)。
LRP最先在cv畛域提出。具体来说，对于cv来说，删掉某一部分使得模型错判，则阐明此局部对于后果是重要的。
在nlp中，上文提出间接把word embedding全0示意来“删除”这个word。
LRP能给出每个word对后果的相干值。
·
文章首先摸索了应用bert的att的办法也不咋地，应用transformer做word alignment工作的话有些甚至不如用互信息（PMI）直算：

文章一共比拟了

互信息直算（PMI）
用transformer attention
他的两种model agnostic的办法，一个叫PD，一个叫EAM

PD（prediction difference）办法

其办法如下，对于一个填词问题来说，把原sentence的某一个word $x$替换成全0embedding，把替换前后的模型输入词$y$的差值作为x与y的“相关度”。

不同于直算或者attention办法的word alignment，本篇文章间接应用删除word对后果的差别大小来作为两个语言相关矩阵的值。

EAM（Explicit Alignment Model）办法

对于一个曾经训练好的NMT模型，源语言的word x和目标语言的word y是这样算的：

而后归一化一下

这个$W$是要训练的。

后果

fast align是IBM mode 2的一个实现，就是纯概率统计模型的词对齐模型。AER是越小越好，这表只能看出，作者的EAM和PD比应用transformer的attention做词对齐好，然而比不上IBM model 2.

其实这个后果看了挺悲观的，原本就是以词对齐为工作向导，后果搞了一顿这个办法还不如经典概率统计的后果……
然而看完还是有意义的，这篇文章给出了在训练好NMT模型后，想要附加一个词对齐的工作该如何下手。

小结

这篇文章从可解释性角度找了model agnostic的办法进行word alignment，而不是间接给出端到端的模型。
然而不论是EAM还是PD，都首先要有一个齐全训练实现的NMT模型，对于EAM办法来说，还要再训一个$W$。
能够这么说，文章的角度是机器翻译工作附带了词对齐工作，算个add on的加分项。

关于nlp:词对齐任务依附于机器翻译

前情概括

NMT附丽下的word alignment

词互信息（PMI)直算

附丽NMT的词对齐

MT和词对齐都做得好 (EMNLP 2019)

办法

eval

MarianNMT

从可解释性角度进行word align （ACL 2019）

前言

PD（prediction difference）办法

EAM（Explicit Alignment Model）办法

后果

小结

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于nlp:词对齐任务依附于机器翻译

前情概括

NMT附丽下的word alignment

词互信息（PMI)直算

附丽NMT的词对齐

MT和词对齐都做得好 (EMNLP 2019)

办法

eval

MarianNMT

从可解释性角度进行word align （ACL 2019）

前言

PD（prediction difference）办法

EAM（Explicit Alignment Model）办法

后果

小结

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复