关于自然语言处理:词对齐任务端到端模型

前情概括

词对齐工作分为三大实现形式，详情见词对齐工作概述，此为其一。

认为2013年的文章前提：线性映射即可在不同语言之间实现词对齐，求出此线性映射，就能够是间接求两词之间的mapping，就能够词对齐。

VecMap(ACL 2017)

办法是一个迭代办法，求两个语料之间的$W$线性映射。

流程

文章想要找到一个 $W$，使得两个语种之间的映射后间隔最小：

$X$是源语言的embedding， $Y$是目标语言的embedding，embedding是word2vec训得的，$W$ 是要求的线性映射， $D$是词典，假使原句 $x_i$与$y_i$指标句的是匹配的，则是1，不然是0.
要求解，文章还加了个条件，W是正交矩阵。通过一系列简化，简化到了$W$ 是能间接算进去的。

eval

这个eval是取XW与Z的dot分，也就是 $(XW)^TZ$，做两词的相干分数的。

数据集小得可怜！只有5k组词。而且指标函数优化的就是XW和Z的间隔，eval又用这个去取，额...
文章中的题目其实是Learning bilingual word embeddings with (almost) no bilingual data，看试验数据意思是即使是在pair极少的状况下，仍能有好成果。
给出了一种迭代更新的思维，并且连续了源词和指标词的线性映射这个假如。

MUSE(ICLR2018)

办法

先adversarial办法失去rough的映射关系(图中(B))，后用Procrustes精密求映射(图中(C))。

adversarial具体形式：A discriminator is trained to discriminate between elements randomly sampled from $WX = (W _{x1}, ..., W_{ xn})$ and $Y$.登到
等到discriminator判断不进去了，就间接用此时的$W$作为最后的映射了。接下来就进行refine（图中(C))步骤。
evaluation

借鉴间隔。因为间接应用cos sim会在KNN呈现一个hubness的景象：有些向量（称作hubness，枢纽），是很多其余点的最近邻，而有些点（anti-hubness）则不是任何点的最近邻。因为最近邻是非对称的，y是x的最近邻不代表x是y的最近邻。所以作者应用了借鉴的cross-domain similarity local scaling（CSLS）。

word translation
实现不同语言间单个单词的翻译。数据自建了100k word pairs 。
应用CSLS做eval的。

能够看到如果不必refine步骤，只凭GAN还没有达到supervised的成果。

与其余baseline的比拟：确有进步，不过最高仍不过90%.

Sentence translation retrieval. 实现句子级别的“翻译”。采纳了词袋的办法实现，一个句子被打包成词袋，通过依据idf权重相加失去句子embedding，而后还是通过句子embedding向量间隔找句子embedding。idf的权重来自300k的语料，eval应用2k查问句embedding和200k个候选句。
小结
数据集大了；提出了应用CSLS；有监督无监督；成果晋升，但下限不算高；

MUVE(cvpr2020)

对于前两个工作来说，muve退出了图像信息进行词embedding的初始化（也就是仅仅对第一步做了改良，退出了图像信息）。idea是甭管语言是什么，有些词一张图就蕴含所有，咱们能够利用这个景象。

改良的第一步流程

video端应用他人的工作I3D做encoder，text端间接应用预训练的embedding做feature。

因为有着雷同图片的文字embedding该当尽可能相近，文章用图片做两头连贯，心愿拉进相干词的间隔。优化指标是是：

f是X的encoder，g是y的encoder，h是video端的encoder。

依据优化指标，loss是比照学习罕用的NCE。

随后也是应用Procrustes去迭代，晋升成果.

如此图所示，$\mathcal{Y}$有一个AdaptLayer，这个layer就是个linear，MUVE把他的$W$间接拿来做初始的$W$了。其余的步骤是一样的。

eval

训练数据集是用HowToW，一个教人怎么做很多事件的教学视频:

另外词対词的数据集被人为分出了visual局部，因为有些词是能够用图片表白，但形象词是无奈的，两类在eval的时候会不一样。

词对词翻译，数据集不超过3k 的词pair，词embedding的训练是在HowToW训练的。base model指不应用procrustes；video retrieval指间接用video的embedding取。
与baselines：

● 文章提到MUVE比其余的办法更加鲁棒，意思是即使是少vocab size训embedding，我的性能也不降落，因为我还有图片的信息补上（集体揣测）。

其余点

● 因为退出了video，文章还特意把text和image做了retrieval的case study：

不过这个看看就行，因为case study都是挑好的放进去的。
● 文章也做了短语sentence级别的retrieval，然而并没有阐明是怎么检索的，并且短语级别的数据集特地小，只有444个query带标签，看case study的成果还能够：

● 文章retrieval的具体实现形式含糊不清，只是提了一嘴cos。
loss中退出正交束缚对整个办法晋升很大，就是在NCE loss中退出限度必须是正交矩阵，原文： We observe that this penalty was a key component for MUVE. Precisely, there is a 43.0% relative drop of performance for Recall@1 on the Dictionnary En-Fr

小结

连续了无监督，增加了图片信息，多模了；
晋升了成果；
文章写作乱，极乱！

WALIP (arxiv2022.5.23)

MUVE是video和text联合，整个是image和text联合。

想法

流程

比照前人工作，提出了robust procrustes；对第一步同样应用了image和text，然而是另一种实现（应用了clip的）。CLIP是一个能同时排汇image和text信息抓取feature的工作，这个文章间接应用它做feature extractor，与后面的文章不同。
● 比照前人间接应用procrustes做refine，此文应用了另一个文章的robust procrustes；

对于Step#1来说，有些形象的词是图片表白不进去的，所以此步骤外面的汇合并不能全用，文章只选了sim（用CSLS）高的pair做最后汇合，而后统计出a与b的映射，作为initial 进入下一步robust proscrustes。

eval

eval的数据集和MUVE的截然不同，也是，retrieval的间隔是CSLS。

词对词：wiki数据集预训练的embedding成果并不显著：
他的各种变体版本就不看了，间接看完全版的和之前的比拟，成果只晋升了0.1%用HowToW预训练的embedding晋升多一些：

小结

办法无效，传承无监督（然而原文并没有提到 CLIP那一步具体用的loss是什么）；
image和text，又是多模，应用了CLIP对立的encoder，流程简洁了些；
文章提到的劣势还有计算量少、多语言鲁棒。

4篇工作总结

波及的一系列都是分步走，先取得W ，再用（改良的）P办法迭代精修。
retrieval的办法除了cos，能够用CSLS。
办法都是无监督的办法，然而成果无限，数据集也不算大。
embedding应用的都是word2vec而不是bert系列。

前情概括

VecMap(ACL 2017)

流程

eval

MUSE(ICLR2018)

办法

evaluation

小结

MUVE(cvpr2020)

改良的第一步流程

eval

其余点

小结

WALIP (arxiv2022.5.23)

想法

流程

eval

小结

4篇工作总结