前情概括

词对齐工作分为三大实现形式,详情见词对齐工作概述,此为其一。


认为2013年的文章前提:线性映射即可在不同语言之间实现词对齐,求出此线性映射,就能够是间接求两词之间的mapping,就能够词对齐。

VecMap(ACL 2017)

办法是一个迭代办法,求两个语料之间的$W$线性映射。

流程


文章想要找到一个 $W$,使得两个语种之间的映射后间隔最小:

$X$是源语言的embedding, $Y$是目标语言的embedding,embedding是word2vec训得的,$W$ 是要求的线性映射, $D$是词典,假使原句 $x_i$与$y_i$指标句的 是匹配的,则是1,不然是0.
要求解 ,文章还加了个条件,W是正交矩阵。通过一系列简化,简化到了$W$ 是能间接算进去的。

eval

这个eval是取XW与Z的dot分,也就是 $(XW)^TZ$,做两词的相干分数的。

数据集小得可怜! 只有5k组词。而且指标函数优化的就是XW和Z的间隔,eval又用这个去取,额...
文章中的题目其实是Learning bilingual word embeddings with (almost) no bilingual data,看试验数据意思是即使是在pair极少的状况下,仍能有好成果。
给出了一种迭代更新的思维 ,并且连续了源词和指标词的线性映射这个假如。


MUSE(ICLR2018)

办法

先adversarial办法失去rough的映射关系(图中(B)),后用Procrustes精密求映射(图中(C))。

  • adversarial具体形式:A discriminator is trained to discriminate between elements randomly sampled from $WX = (W _{x1}, ..., W_{ xn})$ and $Y$.登到
    等到discriminator判断不进去了,就间接用此时的$W$作为最后的映射了。接下来就进行refine(图中(C))步骤。

    evaluation

借鉴间隔 。因为间接应用cos sim会在KNN呈现一个hubness的景象:有些向量(称作hubness,枢纽),是很多其余点的最近邻,而有些点(anti-hubness)则不是任何点的最近邻。因为最近邻是非对称的,y是x的最近邻不代表x是y的最近邻。所以作者应用了借鉴的cross-domain similarity local scaling(CSLS)。

  • word translation
    实现不同语言间单个单词的翻译。数据自建了100k word pairs 。
    应用CSLS做eval的。


能够看到如果不必refine步骤,只凭GAN还没有达到supervised的成果。

与其余baseline的比拟:确有进步,不过最高仍不过90%.

  • Sentence translation retrieval. 实现句子级别的“翻译”。 采纳了词袋的办法实现,一个句子被打包成词袋,通过依据idf权重相加失去句子embedding,而后还是通过句子embedding向量间隔找句子embedding。idf的权重来自300k的语料,eval应用2k查问句embedding和200k个候选句。

    小结

    数据集大了;提出了应用CSLS;有监督 无监督;成果晋升,但下限不算高;


MUVE(cvpr2020)

对于前两个工作来说,muve退出了图像信息进行词embedding的初始化(也就是仅仅对第一步做了改良,退出了图像信息)。idea是甭管语言是什么,有些词一张图就蕴含所有,咱们能够利用这个景象。

改良的第一步流程


video端应用他人的工作I3D做encoder,text端间接应用预训练的embedding做feature。

因为有着雷同图片的文字embedding该当尽可能相近,文章用图片做两头连贯,心愿拉进相干词的间隔。优化指标是是:

f是X的encoder,g是y的encoder,h是video端的encoder。

依据优化指标,loss是比照学习罕用的NCE。

随后也是应用Procrustes去迭代 ,晋升成果.

如此图所示,$\mathcal{Y}$有一个AdaptLayer,这个layer就是个linear,MUVE把他的$W$间接拿来做初始的$W$了。其余的步骤是一样的。

eval

训练数据集是用HowToW,一个教人怎么做很多事件的教学视频:

另外词対词的数据集被人为分出了visual局部,因为有些词是能够用图片表白,但形象词是无奈的,两类在eval的时候会不一样。

  • 词对词翻译,数据集不超过3k 的词pair,词embedding的训练是在HowToW训练的。base model指不应用procrustes;video retrieval指间接用video的embedding取。
    与baselines:

● 文章提到MUVE比其余的办法更加鲁棒,意思是即使是少vocab size训embedding,我的性能也不降落,因为我还有图片的信息补上(集体揣测)。

其余点

● 因为退出了video,文章还特意把text和image做了retrieval的case study:

不过这个看看就行,因为case study都是挑好的放进去的。
● 文章也做了短语sentence级别的retrieval,然而并没有阐明是怎么检索的,并且短语级别的数据集特地小,只有444个query带标签,看case study的成果还能够:

● 文章retrieval的具体实现形式含糊不清,只是提了一嘴cos。
loss中退出正交束缚对整个办法晋升很大,就是在NCE loss中退出 限度 必须是正交矩阵,原文: We observe that this penalty was a key component for MUVE. Precisely, there is a 43.0% relative drop of performance for Recall@1 on the Dictionnary En-Fr

小结

连续了无监督,增加了图片信息,多模了;
晋升了成果;
文章写作乱,极乱!


WALIP (arxiv2022.5.23)

MUVE是video和text联合,整个是image和text联合。

想法

流程

  • 比照前人工作,提出了robust procrustes;对第一步同样应用了image和text,然而是另一种实现(应用了clip的)。CLIP是一个能 同时排汇image和text信息抓取feature的工作,这个文章间接应用它做feature extractor,与后面的文章不同。
    ● 比照前人间接应用procrustes做refine,此文应用了另一个文章的robust procrustes;

对于Step#1来说,有些形象的词是图片表白不进去的,所以此步骤外面的汇合并不能全用,文章只选了sim(用CSLS)高的pair做最后汇合,而后统计出a与b的映射 ,作为initial 进入下一步robust proscrustes。

eval

eval的数据集和MUVE的截然不同,也是 ,retrieval的间隔是CSLS。

  • 词对词:wiki数据集预训练的embedding成果并不显著:
    他的各种变体版本就不看了,间接看完全版的和之前的比拟,成果只晋升了0.1%用HowToW预训练的embedding晋升多一些:

小结

办法无效,传承无监督(然而原文并没有提到 CLIP那一步具体用的loss是什么);
image和text,又是多模,应用了CLIP对立的encoder,流程简洁了些;
文章提到的劣势还有 计算量少、多语言鲁棒。

4篇工作总结

波及的一系列都是分步走,先取得W ,再用(改良的)P办法迭代精修 。
retrieval的办法除了cos,能够用CSLS。
办法都是无监督的办法,然而成果无限,数据集也不算大。
embedding应用的都是word2vec而不是bert系列。