关于机器学习:从稀疏表征出发召回方向的前沿探索

作者 | lhy12138

导读
目前百度大搜次要有基于稠密表征的倒排检索和浓密表征的语义检索双路召回。随着深度学习技术的倒退，语义检索的召回成果失去了显著进步；与此同时，因为稠密表征有着准确匹配、索引效率和可解释的劣势，最近学术界从新将眼光放回稠密表征架构，钻研稠密表征如何从大规模语言模型中获益。本文将介绍学术界在倒排召回和语义召回的最新进展。
全文 6386 字，预计浏览工夫 16 分钟。

召回个别会从海量候选库中抉择与 query 相干的文档送给下层排序模块，因为效率起因，往往无奈执行 query-url 细粒度交互。目前召回次要有基于 term 的传统倒排召回和基于向量表征的语义召回。本文将介绍两个方向在学术届的一些最新进展。

随着预训练模型和样本技术的更新，语义召回体现了弱小的检索成果，而传统倒排技术因为老本、效率问题并没有取得成果的显著进步。倒排召回基于 term 归并，因而具备较强的可解释性；而语义召回在向量空间搜寻与 query 语义最类似的文档，对语义的表达能力更强。应该如何对待两者在召回链路上的关系呢？

Are We There Yet? A Decision Framework for Replacing Term Based Retrieval with Dense Retrieval Systems

这篇论文提出了一套框架，包含一组指标（不仅从成果登程），彻底比拟两个检索系统。

次要规范 （成果 / 老本）以及 主要规范（robustness）：

主要规范：子问题汇合的成果（如长度在某个范畴的 q、频率在某个范畴的 q、lexical 匹配的能力、模型的泛化能力、决策显著差别比例、甚至是零碎可维护性、将来迭代空间、老本）

最终论文在一个检索评估集上给出了相应的论断：即在向量化老本可承受的前提下，语义召回零碎能够代替倒排召回零碎。而在理论工业界对应的问题往往更为简单，但论文提出的剖析框架正是咱们须要从新扫视和思考的内容。

BEIR: A heterogenous benchmark for zero-shot evaluation of information retrieval models

这篇论文对学术界现有检索相干数据集进行汇总，从各个领域汇总了不同上游工作中对检索能力的需要，以全面地评估现有召回模型的成果。

从表格能够看到一些有意思的论断：在 zero-shot 的场景下，BM25 是一个十分强壮的检索系统。基于 term 细粒度语义交互的两种办法（colbert/BM25+CE）依然体现了统一的优越性。但稠密表征和浓密表征的双塔模型仿佛体现不佳。同时察看到 doc2query 是一个稳固的晋升，因为它只会扩大词，更像是对 BM25 的合理性改变，检索形式和打分逻辑与 BM25 统一。

同时作者也提到，数据集存在词汇偏差问题：标注候选来自于 BM25 检索，因而可能对不依赖词汇匹配的模型存在好后果的漏标注问题，对新召回后果标注后：

其中语义召回模型（如 ANCE）指标显著进步。

通过以上两篇论文发现，不论是倒排召回还是语义召回在不同场景下有着本人独立的劣势，因而咱们在后文会针对两个方向别离介绍相干停顿。

如果想通过现有技术促成倒排倒退，咱们有哪些能够尝试的计划？

关于机器学习:从稀疏表征出发召回方向的前沿探索

01 搜寻中的召回

02 如何对待语义召回和传统倒排召回的关系?

03 倒排召回新倒退

04 语义召回新倒退

05 总结

Just My Socks（注册教程内含优惠码）

关于机器学习:从稀疏表征出发召回方向的前沿探索

01 搜寻中的召回

02 如何对待语义召回和传统倒排召回的关系?

03 倒排召回新倒退

04 语义召回新倒退

05 总结

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）