关于深度学习:多模态跨模态检索历史工作及先行跨模态图文检索算法对比汇总Jason-Freed

学习自：深度学习跨模态图文检索钻研综述 - 西安邮电 doi: 10.3778/j.issn.1673-9418.2107076

多模态学习解决了解来自感官的多源信息。

多模态倒退历程：

1976 年 MCGURK H, MACDONALD H. Hearing lips and seeingvoices[J]. Nature, 1976, 264(5588): 746-748. 提出视觉对语言感知的影响，后被用于视听语音辨认（AVSR）称为多模态概念雏形。
2010 年：交融办法和交融程度为线索，对已有多模态交融钻研办法进行分类
2015 年：提出 多模态隐条件随机场 ，晋升多模态数据分类成果；提出基于 正交正则化束缚 的深度多模态哈希办法，缩小多模态示意的信息冗余。
2019 年：划分多模态学习钻研方向：多模态示意、多模态翻译、多模态对齐、多模态交融、多模态协同感知等

目前多模态学习胜利用于人脸识别、人体姿势预计、多模态检索、跨模态检索、语义场景了解与情感辨认等

跨模态学习 是多模态学习的分支，充分利用多模态学习中的 模态间示意、翻译和对齐 等策略。二者相似之处在与两者数据都来自所有模态，但前者的 数据只在某一模态可用 后者的数据则用于所有模态。

跨模态检索 又称跨媒体检索，特点：训练师所有模态的数据都存在，但在测试过程中只有一个模态可用。旨在实现模态间的信息系交互，目标在于开掘不同模态样本之间的关系，通过一种模态样本检索具备近似语义的另一种模态样本。

跨模态图文检索，关键字到图像的检索因为其本质是查问关键字与图像的标注之间的匹配，因而被称为伪 ” 跨模态 ” 问题。以视觉数据和自然语言形容为根底，更关注图像和文本两种模态的交互，其目标是在不借助任何辅助信息的状况下，通过文本（图像）查问来检索图像（文本）。

跨模态图文检索分为以图搜文和以文搜图两种模式。图像和文本间的语义关系能够定义为三个维度下的八种类别，蕴含不相干关系、互补关系、相互依赖关系、锚定关系、插图关系、比照关系、插图不良关系和锚定不良关系。

一方面，相比于传统办法，深度网络因其高度非线性构造，更适宜对模态内特色和模态间语义关系进行开掘；另一方面，鉴于小批量训练策略的劣势，深度网络可能反对对海量数据的解决

跨模态检索倒退历程：

2014 年：将跨模态建模策略分为间接建模和间接建模，前者指通过建设共享层来间接度量不同模态数据间的相关性，后者指通过构建公共示意空间来建设不同场景不同模态间的语义关联。
2015 年：多模态数据间建设关联的策略分为基于共享层与基于公共示意空间的两种关联办法
2016 年：已有的跨模态检索办法演绎为实值示意学习和二进制示意学习两大类
2018 年：针对模态间内容相似性度量的技术难点，将跨模态检索分为 公共空间学习方法和跨模态相似性度量办法 ；将跨模态检索办法分为 基于子空间的办法、基于深度学习的办法、基于哈希变换的办法和基于主题模型的办法 ，指出以后跨模态检索面临的次要问题是不足对模态内部分数据结构和模态间语义构造关联的钻研；从 信息抽取与示意 、 跨模态零碎建模 两个维度评述了基于示意学习的跨模态检索模型；摸索了 联结图 正则化的跨模态检索办法；
2019 年：介绍了近年来 跨模态特色检索及优化的研究进展 ，并对 跨模态数据联结分析方法 及跨模态特色检索面临的问题与挑战 进行了概述；对跨模态检索办法的 具体分支 进行了梳理，为相干畛域的摸索提供了新思路。

以后跨模态图文检索相干技术已被胜利利用于网络舆情事件预警、多媒体事件检测、医学数据分类等畛域。

跨模态图文检索近年来相干成绩：

2017 年：将跨模态图文检索的钻研内容分为 多模态数据特色示意 和模态间关联机制 两方面
2019 年：依据构建 模态间关联形式 的区别，将 跨模态图文检索 分为 基于典型关联剖析 、 基于深度学习 和基于深度哈希 的办法，并就各种 跨模态关联形式的缺点 摸索了具体的解决思路。
2021 年：本文除涵盖了 实值示意 和二进制示意 的办法外，对基于 深度学习 的跨模态图文检索现有的研究成果进行了总结。

介绍算法波及的重要概念及常见网络结构

1.1 相干概念

重要概念：
（1）跨模态重构在给定跨模态数据的情况下联结输入特征示意，而后互相重构各模态数据且保留重构信息，最初比拟重构信息与原始信息相似性的过程。
（2）细粒度数据指信息十分具体具体的数据。数据粒度指数据的具体水平，粒度越小，数据的信息越具体，越容易在机器学习中把握数据的法则与实质。
（3）无监督学习指当时没有任何训练数据样本而须要间接对数据建模的学习办法。无监督学习仅应用 共现信息 来学习跨模态数据的公共示意。共现信息 指在多模态文档中所共存的不同模式的数据具备雷同的语义。
（4）监督学习指通过有标记的训练数据来推断或建设一个最优模型的学习办法。监督学习利用标签信息来学习公共示意，强制 不同类别样本 的学习示意间隔尽可能远，而雷同类别样本的学习示意尽可能靠近。
（5）端到端学习，也称端到端训练，指在学习过程中缩减人工预处理和后续解决，使模型从原始输出间接到最终输入。其训练数据为 ” 输出 - 输入 ” 对的模式，无需提供其余额定信息。端到端学习为模型提供了更多依据数据主动调节的空间，减少了模型的整体符合度。

1.2 相干网络结构

跨模态图文检索在 DL 畛域波及其中网络结构：

深度自编码器模型（deep autoencoder，DAE）[25]由一个编码器和一个生成重构的解码器组成。深度自编码器能够产生对输出进行刻画的编码，其通常用于跨模态重构，从而发现跨模态相关性。
深度信念网络（deep belief nets，DBN），该网络既能够被视为自编码器进行非监督学习，也能够被视为分类器进行监督学习。
受限玻尔兹曼机模型（restricted Boltzmann machine，RBM）可用于 跨模态重建 。2012 年，Srivastava 等人提了一种由 多种模态输出 组成的深度玻尔兹曼机，该模型可 实现模态交融与对立示意 ，也可利用于 分类辨认 和信息检索 工作。
注意力机制模型, 目前大多数注意力模型在跨模态图文检索中用于对 模态部分特色的示意 ，以及对 不同模态片段的对齐 ，有助于 开掘模态间细粒度的对应关系 ，并在肯定水平上可能 补救模态数据缺失 的问题。
生成对抗网络（generative adversarial networks，GAN）能够通过两个模块的互相博弈得到良好的输入。在跨模态图文检索工作中，生成反抗网络个别通过 图片和文本互相反抗 ，使数据间的 潜在关系及语义构造被更好地保留 ，同时 生成过程 能够学习弱小的跨模态特色示意，从而 加强跨模态语义一致性。
卷积神经网络（convolutional neural networks，CNN）广泛应用于跨模态图文检索中。其长处在于对 高维数据 的解决能力强 、 特色分类成果良好，具备弱小的特色示意能力；毛病是依赖于大规模标记样本和简单的调参过程。跨模态图文检索中罕用的卷积神经网络模型有 ResNet、AlexNet 等。
长短期记忆网络（long short-term memory，LSTM）能够无效地将短时记忆与长时记忆相结合，借此联结学习数据的上下文信息。在跨模态图文检索工作中，需首先确定从单元状态中被忘记的信息，进而确定可能被寄存到单元状态中的信息，最初通过 tanh 的单元状态乘以输入门，用于确定输入的局部。（是否可被代替?）
其余：，双向递归神经网络（bidirectional recurrentneural network，BRNN）、基于字嵌入（矢量）的卷积神经网络（word embedding (vector) based convolutionalneural network，WCNN）、循环神经网络、递归神经网络（recursive neural network，RNN）、区域卷积神经网络（region convolutional neural network，RCNN）等也被应用于特征提取工作中。

确保检索准确性，解决模态间底层数据特色异构导致的语义鸿沟
检索效率晋升

基于准确性和效率，支流算法分为：实值示意学习和二进制示意学习

(办法特点 + 该办法近期优良工作 + 办法面临挑战)

实值：高准确率，重视语义匹配，学习一个实值公共示意空间，该空间中不同模态数据通用示意是实值
二进制：又称跨模态哈希，减速检索，不同模态数据映射到独特汉明空间，二值化过程会导致检索精度降落

基于深度学习的跨模态图文检索钻研现状

2.1 实值示意学习办法

旨在为不同模式的数据学习浓密特色示意。目前风行的基于深度学习的实值示意跨模态图文检索办法可分为两类：基于特色示意的办法和基于图文匹配的办法。

基于特色示意的办法: 聚焦于对 不同模态间特色 进行建模，以良好的 特征提取 来无效解决不同模态数据特色的异构问题，从而保障检索准确度
基于图文匹配的办法：关注图像和文本模态间的 语义对应关系，旨在通过减小语义鸿沟以进步图文匹配的准确性，从而进步检索的准确度

2.1.1 基于特色示意的办法

基于特色示意的办法将基于深度学习的单模态特征提取算法利用在跨模态图文检索中，以便对不同模态间特色进行建模。
具体工作：

模态针对型深层构造模型（modality-specific deep structure，MSDS）：应用 CNN 和 WCNN 别离提取图像和文本示意，通过应用规范反向流传技术来更新 CNN 与 WCNN 的参数。WCNN 能够解决不同长度的序列并获取具备雷同维度的后果特征向量，可能无效提取文本特色。
基于深度双向表示学习模型（deep and bidirectionalrepresentation learning model，DBRLM）的办法，利用文本描述中的序列和结构信息对特征进行增强，利用 双向结构 探索 匹配与不匹配图像文本对 的关系，减少了匹配对的相似性。
比照发现，双向示意模型比只思考单向模态不匹配对的状况有更好的成果，且该办法在匹配数据中可能学习丰盛的鉴别信息。

针对单标签或多标签样本跨模态图文检索问题，为了更好地弥合图像和相应语义概念间的差距：

深度卷积激活特征描述子（deepconvolutional activation feature，DeCAF），将 CNN 实现产生的 1 000 维度预测得分作为 ImageNet 的输出视觉特色，，DeCAF 能够使学习到的视觉特色具备足够的表征能力
深度语义匹配办法（deep semanticmatching，deep-SM），对预训练的 CNN 模型进行微调，对不同的指标数据集采纳不同的损失函数，应用微调的 CNN 和训练的全连贯神经网络将图像和文本投影到高形象级别的同构语义空间中
微调的办法能够进步其对指标数据集的适应性，无效升高图像与相应语义之间的鸿沟。通过微调深度 CNN 模型对图像生成视觉嵌入，无效防止了局部语义信息的失落。

基于特色示意的办法个别通过两种形式来获取更好的跨模态输出特色：

针对不同利用场景，采纳非凡的网络结构或提取特定的特色来取得图像文本示意；
对经典的 CNN 模型进行微调改良

目前研究者在该类办法中更偏向于对视觉特色的摸索，文本数据在跨模态语义特征提取过程中并没有失去很好的钻研 。因而，摸索更适合的神经网络以建设 文本数据由低级特色到高级语义 之间的映射是该类办法所面临的挑战。

2.1.2 基于图文匹配的办法

关注于不同模态间的 构造关联 ，此类办法通过钻研图像和文本模态间的 语义对应关系 来加强模态间特色示意的一致性。

目前支流的基于图文匹配的办法依照模态间语义构造关联的不同可分为三类：
（1）图像 - 文本对齐的办法：
学习同一实例不同模态特色之间的关系来推断句子片段与图像区域之间的潜在对齐。
对图像内容及自然语言畛域的示意同时进行推理：

多模态双向递归神经网络构造，其外围观点是将句子视为丰盛的标签空间，使间断的单词片段对应于图像中某个特定但未知的地位，该模型可能实现对小区域或绝对常见对象的视觉语义对应关系的解释，在图像 - 句子排序试验中有良好的性能体现。
Neural-Image-QA 模型 ，答复对于图像的自然语言问题，将问题用意推理、视觉场景了解与单词序列预测工作联合起来，其中问题与视觉表征一起被输出 LSTM 进行联结训练，其语言输入取决于视觉和自然语言输出，通过单词和像素的端到端训练，获取了良好的匹配后果，试验表明该办法在“ 单字 ” 变体状况 下能实现最佳性能
图像 - 文本对齐的方法更关注局部精细的信息，也罕用于细粒度的跨模态图文检索工作：
针对服装畛域提出了 FashionBERT 模型，相比于感兴趣区域（region of interest，RoI）模型，时尚文本偏向于形容更精密的信息。FashionBERT 在提取图像示意时将每个图像宰割成雷同像素的补丁，作为 BERT 模型的序列输出，在匹配时将文本标记和图像补丁序列进行连贯。试验表明该办法能够在肯定水平上覆盖图像中不相干的信息，减小了检测到无用和反复区域的可能性。
重叠穿插注意力模型（stacked cross attention network，SCAN）：该模型对图像 RoI（感兴趣区域 region of interest，RoI）模型和文本标记执行跨模态匹配，利用注意力机制将每个片段与来自另一模态的所有片段对齐，以辨别单词及图像区域的被关注度，有助于捕获视觉和语言间的细粒度相互作用。该办法能够灵便地发现细粒度对应关系，在多个基准数据集上都取得了最佳性能。
然而，基于注意力机制的办法大多疏忽了全局上下文中呈现的多种语义状况：
语境感知注意力网络（context- aware attentionnetwork，CAAN），依据全局上下文有选择地关注信息量最大的部分片段，综合了模态间和模态内留神过程，同时执行图像辅助的文本留神和文本辅助的视觉留神，很好地聚合了上下文信息，捕获了潜在的模态内相关性。
针对语义模型的复杂性：
基于循环留神记忆的迭代匹配（iterative matching with recurrentattention memory，IMRAM）办法，该办法通过迭代匹配计划逐渐 更新跨模态注意力外围，开掘图文间细粒度的对应关系。首先通过跨模态留神单元预计 V 和 T 两组特色点之间的类似度；而后通过记忆提取单元细化注意力后果，深入潜在对应关系，以便为下一次比对提供更多信息。在 K 个匹配步骤之后，该办法通过对匹配分数求和得出图文之间的类似度。

图像 - 文本对齐的办法更加关注图像和文本的局部区域片段信息。
劣势：在于通过注意力机制等形式，可能取得更好的细粒度语义辨别能力，无效解决多语义、图像问答、图像形容和细粒度交互等问题，进而进步了图文匹配的准确度
毛病：因为更多聚焦于部分信息，对数据集的规模和品质以及模型的精密度会有更高的要求，且大多并不适用于 全局信息 的匹配。

（2）跨模态重构的办法：
跨模态重构的方法 更关注全局信息，此类方法通常利用一种模态信息来重构对应模态，同时保留重建信息，可能加强跨模态特色一致性及语义辨别能力。

不同模态数据共享权重的 双模深度自编码器模型: 跨模态相关性是高度非线性的，而 RBM 很难间接对这种相关性进行学习。基于此，思考在每个模态的预训练层上训练 RBM 的办法，在仅给定视频数据的状况下进行跨模态重建，从而发现跨模态的相关性。
提出了一种图像字幕生成的办法，引入了构造 - 内容神经语言（structure- content neural language model，SC-NLM）模型，SC-NLM 通过编码器学习图像句子联结嵌入，并依据编码器产生的分布式示意，将句子的构造与内容拆散，再通过解码器生成新的字幕。该模型无效地对立了联结图像 - 文本嵌入模型和多模态神经语言模型，实现了对图像和字幕的排序及新字幕的生成。该模型无效地对立了联结图像 - 文本嵌入模型和多模态神经语言模型
此外，因为源集和指标集实例在不可扩大, 跨模态检索工作中通常被假设共享雷同范畴的类，当二者实例具有不相交的类时，难以取得理想的检索后果:
模态反抗语义学习网络（modal-adversarial semantic learning network，MASLN），其中，跨模态重构子网络通过条件自编码器互相重建各模态数据，实现从源集到指标集的常识转移，使跨模态散布差别最小化；模态反抗语义学习子网络通过对抗性学习机制产生语义表征，使学习到的公共示意对语义有区别而对模态无区别。该办法在可扩大和不可扩大的检索工作中后果都优于其余办法，无效放大了不同模态之间的异质性差距。
MASLN 模型框架
为了克服对嵌入空间的需要:
循环统一图文检索网络（cycle-consistent text and imageretrieval network，CyTIR-Net），将图文检索问题表述为文本和视觉转换的问题。该办法利用文本项和视觉特色的互相翻译建设重构束缚，txt2img 和 img2txt 模型别离实现了图像和文本域之间的前向和后向转换，确保重构的文本或图像与原始文本或图像向量类似，并蕴含足够的重构信息。该办法对中小型数据集体现更好，良好地展现了循环一致性束缚的正则化能力和网络的泛化能力，以及加强模型在跨模态检索中的场景分别能力。

跨模态重构的办法利用 深度自编码器 等形式，无效放大了模态间的异构性差别。此类办法对 数据集的训练及其规模要求并不高 ， 正文成本低 ，更实用于 中小型数据集 ，具备可扩展性，多用于 图像字幕生成 等工作。然而，此类办法在模型训练过程中 容易疏忽细节信息 ，对指标数据集成对相关性的体现度有余。因而，如何在 放大模态间统计差距 的前提下，独特学习部分文本与图像信息的对齐，并据此来动静地调节模态间的生成过程，是目前此类办法所面临的挑战。

（3）图文联结嵌入的办法
相比于图像 - 文本对齐的办法和跨模态重构的办法，图文联结嵌入的办法个别联合了全局和部分信息作为语义特色的嵌入，因而可能学习到更好的特色判断性。此类办法个别通过图像和文本模态数据的联结训练及语义特色的嵌入来学习图像文本的相关性，进而实现图文匹配。

应用弱对齐的数据来学习具备强对齐的跨模态示意，在共享层应用多层感知器将文本信息映射到与视觉模态雷同维度的示意空间中。该模型同时用到了微调和统计正则化的办法，能够在训练数据没有明确对齐的状况下跨模态检测雷同的概念
为了寻找公共示意空间来间接比拟不同模态的样本：
深度监督跨模态检索（deep supervised cross-modal retrieval，DSCMR）办法，通过最小化样本在标签空间和公共示意空间中的判断损失来监督模型学习判断特色，以放弃不同类别语义样本间的区分度，并使用权重共享策略来打消多媒体数据在公共示意空间中的跨模态差别. 相比以往的办法，DSCMR 的学习策略可充分利用成对标签信息和分类信息，无效学习异构数据的公共示意。留神：已思考到不同模态到公共空间的特色映射，但这种映射函数仅关注于学习模态内或模态间的辨别特色，而未能在跨模态学习办法中充分利用语义信息。
基于正则化跨模态语义映射的深度神经网络（regularized deep neural network，RE-DNN），通过施加模态内正则化，进而取得一个联结模型来捕获不同输出之间的高度非线性关系。该模型在语义层同时捕捉模态内和模态间的关系，且所学习的深层架构可能通过停用局部网络来解决模态缺失问题，具备良好解决不成对数据的能力。该算法仅须要很少的模型训练先验常识，且对大规模数据集可扩大。
为了减小低级视觉特色和高级用户概念之间的 ” 认知鸿沟 ”：
多感官交融网络（multi-sensory fusion network，MSFN）联结模型，将同维 CNN 视觉嵌入和 LSTM 形容嵌入看作人类的两种感官，从人类感知角度将视觉和描述性感官相结合。在测试集中的所有图像和文本映射到公共语义空间后，跨模态检索被转化为用传统相似性度量评估的同构检索问题，该办法通过最小化类别损失函数开掘了跨模态丰盛的语义相关性。
图文联结嵌入办法通常会学习内嵌式嵌入函数（injective embedding functions），对于具有歧义的实例，内嵌函数寻找单个点会重大限度其在事实世界中的利用：
多义实例嵌入网络（polysemous instance embedding networks，PIENets），通过联合输出的全局和部分信息来提取每个实例的 K 个嵌入，同时应用部分 Transformer 模块关注输入实例的不同部分，获得局部引导特色示意，并利用残差学习将部分和全局示意联合起来，进而晋升特色的判断性。
针对内嵌函数学习某一模态只能示意对应模态的局部信息，进而导致被疏忽信息在映射点丢失的问题:
多义视觉语义嵌入办法（polysemous visual-semanticembedding，PVSE），在多实例学习框架中对图像和文本 PIE 网络进行联结优化，且该办法通过最大均匀差别（maximum mean discrepancy，MMD）来最小化两个嵌入散布之间的差别。试验表明了残差学习和多实例学习对于实例语义含糊数据检索的重要性。
为解决多义实例问题:
生成式跨模态学习网络（generative cross- modal featurelearning，GXN），将根底示意和形象示意相结合。除了全局语义层的跨模态特色嵌入外，GXN 还引入了图像到文本和文本到图像两种生成模型的部分跨模态特色嵌入，通过生成过程来学习全局形象特色及局部基础特征。有效处理多义实例问题，并可能检索具备部分相似性的图像或具备词级相似性的句子。
通过引入 GAN 网络的反抗思想:
对抗式跨模态检索方法（adversarial cross-modal retrieval，ACMR），该模型在反抗机制下执行语义学习，其中，特色投影器从公共子空间中的不同模态生成模态不变示意，模态分类器依据生成的示意来辨别不同的模态，并以这种形式疏导特色投影器的学习。通过对特色投影器施加三元组束缚，将具备雷同语义标签的跨模态示意差别最小化，同时最大化具备不同语义的图像文本之间的间隔。该办法在跨模态数据被投影到公共子空间中时，数据的潜在语义构造被更好地保留。

图文联结嵌入的办法更关注对高级语义信息的摸索。此类办法个别利用 生成反抗 等思维，通过 最小化判断损失函数 和模态不变性损失 等形式开掘丰盛的语义相关性，可能 很大水平上打消跨模态异构差别 ，减小 ” 语义鸿沟 ” 及 ” 认知鸿沟 ”，无效解决 多义实例 、 模态缺失 等问题，并能良好地捕 获成对信息相关性。

2.2 二进制示意学习办法

对于一些对检索效率要求高的工作场景，实值示意学习并不实用。二进制示意学习办法在检索效率上具备劣势，其在保障准确率稳定幅度可控的前提下，可显著晋升检索速度。

二进制示意学习办法将跨模态数据投影到一个公共汉明空间，目标在于给类似的跨模态内容赋予类似的哈希码（疾速检索？）。

近十年基于二进制示意学习的办法突破性停顿与成绩：

深度哈希算法
卷积神经网络哈希（convolutional neural network Hashing，CNNH）模型，使基于 CNN 的深度哈希算法开始受到关注。
二进制哈希码的深度学习（deep learning of binary Hash codes，DLBHC）办法，利用深度 CNN 的增量学习个性，以点的形式进行编码和图像示意，同时学习特定图像表征和相似哈希的函数，实现了疾速图像检索并使其实用于大规模数据集。
深度语义哈希排序（deep semantic ranking Hashing，DSRH）办法：进一步摸索多标签关联图像的简单多级语义构造，利用深度 CNN 与列表排序监督哈希，独特学习特色示意和从它们到哈希码的映射，防止了传统办法特色语义示意能力有余的限度。
为确保哈希码和不同信息源所设计哈希函数的一致性：
多源信息复合哈希算法（composite Hashing with multiple information sources，CHMIS），通过调整权重的信息集成方法（CHMISwith adjusted weights，CHMIS-AW）调整每个单独源的权重，将来自不同源的信息集成到二进制哈希码中，进而最大化编码性能，保留了训练示例之间的语义相似性。
在基于深度哈希的跨模态图文检索算法中，一些研究者应用了端到端的办法。针对不同模态的异构性：
深度视觉语义哈希（deep visualsemantic Hashing，DVSH）模型，该模型是 首个跨模态哈希的端到端学习办法，设计了学习图文联结嵌入的视觉语义交融网络，以桥接不同模态及两个模态特定的哈希网络，其生成的紧凑哈希码可能捕获视觉数据和自然语言之间的外在对应关系，进而获取判断性特色，且该模型无效克服了传统交融网络对双峰对象联结嵌入的需要，更实用于高精度的应用程序。
针对跨模态哈希（cross-modal Hashing，CMH）手工制作个性与哈希码学习不能良好兼容的问题：
跨模态深度哈希算法（deep cross-modal Hashing，DCMH），将特征学习和哈希码学习集成到同一端到端学习框架，通过同时对不同类型样本对施加束缚使类似样本间互相凑近，从而保障模态间的对齐，且 DCMH 间接学习离散的哈希码，防止了检索准确性的升高，进步了检索性能。
补救模态差别以进一步提高检索准确度：
自我监督的对抗式哈希方法（self-supervised adversarial Hashing，SSAH），将对抗式学习以自监督形式联合到跨模态哈希中，由自监督语义生成网络（LabNet）和图像文本对抗网络（ImgNet 和 TexNet）组成。自监督语义生成网络用来监督两个模态的语义空间以及对抗性学习。两个反抗网络用来独特学习不同模态的 高维特色 及其 对应的哈希码。试验表明，SSAH 比 DCMH 缩小了 90% 的训练工夫，且 SSAH 学习了更充沛的监督信息，能够捕捉不同模态间更准确的相关性。
针对跨模态哈希在无限数量标记样本上容易过拟合以及高维输出转换成二进制代码导致的信息失落问题：
循环统一的深层生成哈希算法（cycle-consistent deep generative Hashing，CYC-DGH），通过循环统一的反抗学习在没有成对对应的状况下学习耦合的生成哈希函数。该算法通过深度生成模型从哈希码中从新生成输出，使学习到的哈希码最大限度地关联每个输出 - 输入对应关系，且哈希嵌入过程中的信息损失被最小化，无效压缩了输出数据，同时可能最大限度地保留本身信息及不同模态样本间的关系，对减小哈希函数间的模态差别有良好体现。

二进制示意学习办法更偏重解决模态特色异构引起的模态差别问题（？？？和实值示意学习不一样吗），使用端到端、生成反抗 等思维，致力于 最大化特色散布的一致性 。此类办法还无效 解决了过拟合 等问题。然而因为此类办法在二值化过程中会导致 信息的失落 以及 原有构造被毁坏 。
思考模态内数据结构和模态间构造匹配的关联，优化计算等是目前须要钻研的方向。

从类别、代表性办法、特点和实用场景四方面对一些具备重要作用的跨模态检索算法进行了比照剖析：

博客写作心得：模块化抽取实现自我学习了解及后续疾速查问。