关于人工智能:效果提升28个点基于领域预训练和对比学习SimCSE的语义检索

语义检索相比传统基于字面关键词的检索有诸多劣势，广泛应用于问答、搜寻零碎中。明天小编就手把手带大家实现一个基于畛域预训练和比照学习SimCSE的语义检索小零碎。

所谓语义检索（也称基于向量的检索），是指检索系统不再拘泥于用户Query字面自身（例如BM25检索），而是能精准捕捉到用户Query背地的真正用意并以此来搜寻，从而向用户返回更精确的后果。

最终可视化demo如下，一方面能够获取文本的向量示意；另一方面能够做文本检索，即失去输出Query的top-K相干文档！

语义检索，底层技术是语义匹配，是NLP最根底常见的工作之一。从广度上看，语义匹配能够利用到QA、搜寻、举荐、广告等各大方向；从技术深度上看，语义匹配须要交融各种SOTA模型、双塔和交互两种罕用框架的魔改、以及样本解决的艺术和各种工程tricks。

比拟乏味的是，在查相干材料的时候，发现百度飞桨PaddleNLP最近刚开源了相似的性能，堪称国货之光！之前应用过PaddleNLP，根本笼罩了NLP的各种利用和SOTA模型，调用起来也十分不便，强烈推荐大家试试！

接下来基于PaddleNLP提供的轮子一步步搭建语义检索系统。整体框架如下，因为计算量与资源的限度，个别工业界的搜寻零碎都会设计成多阶段级联构造，次要有召回、排序（粗排、精排、重排）等模块，各司其职。

step-1：利用预训练模型离线构建候选语料库；
step-2：召回模块，对于在线查问Query，利用Milvus疾速检索失去top1000候选集；
step-3：排序模块，对于召回的top1000，再做更精细化的排序，失去top100后果返回给用户。

语义检索技术框架图

整体概览

1.1 数据

数据来源于某文献检索零碎，分为有监督（大量）和无监督（大量）两种。

1.2 代码

首先clone代码：

git clone git@github.com:PaddlePaddle/PaddleNLP.git  cd applications/neural_search

运行环境是：

python3
paddlepaddle==2.2.1
paddlenlp==2.2.1

还有一些依赖包能够参考requirements.txt。

离线建库

从下面的语义检索技术框架图中能够看出，首先咱们须要一个语义模型对输出的Query/Doc文本提取向量，这里选用基于比照学习的SimCSE，核心思想是使语义相近的句子在向量空间中邻近，语义不同的相互远离。

那么，如何训练能力充分利用好模型，达到更高的精度呢？对于预训练模型，个别罕用的训练范式曾经从『通用预训练->畛域微调』的两阶段范式变成了『通用预训练->畛域预训练->畛域微调』三阶段范式。

具体地，在这里咱们的模型训练分为几步（代码和相应数据在下一节介绍）：

1.在无监督的畛域数据集上对通用ERNIE 1.0 进一步畛域预训练，失去畛域ERNIE；

2.以畛域ERNIE为热启，在无监督的文献数据集上对 SimCSE 做预训练；

3.在有监督的文献数据集上联合In-Batch Negatives策略微调步骤2模型，失去最终的模型，用于抽取文本向量示意，即咱们所需的语义模型，用于建库和召回。

因为召回模块须要从千万量级数据中疾速召回候选汇合，通用的做法是借助向量搜索引擎实现高效 ANN，从而实现候选集召回。这里采纳Milvus开源工具，对于Milvus的搭建教程能够参考官网教程

https://milvus.io/cn/docs/v1....

Milvus是一款国产高性能检索库，和Facebook开源的Faiss性能相似。

离线建库的代码位于PaddleNLP/applications/neural\_search/recall/milvus

|—— scripts    |—— feature_extract.sh  #提取特征向量的bash脚本├── base_model.py # 语义索引模型基类├── config.py  # milvus配置文件├── data.py # 数据处理函数├── embedding_insert.py # 插入向量├── embedding_recall.py # 检索topK类似后果 / ANN├── inference.py # 动态图模型向量抽取脚本├── feature_extract.py # 批量抽取向量脚本├── milvus_insert.py # 插入向量工具类├── milvus_recall.py # 向量召回工具类├── README.md└── server_config.yml # milvus的config文件，本我的项目所用的配置

2.1 抽取向量

按照Milvus教程搭建完向量引擎后，就能够利用预训练语义模型提取文本向量了。运行feature\_extract.py即可，留神批改须要建库的数据源门路。

运行完结会生成1000万条的文本数据，保留为corpus\_embedding.npy。

2.2 插入向量

接下来，批改config.py中的Milvus ip等配置，将上一步生成的向量导入到Milvus库中。

embeddings=np.load('corpus_embedding.npy') embedding_ids = [i for i in range(embeddings.shape[0])]client = VecToMilvus()collection_name = 'literature_search'partition_tag = 'partition_2'data_size=len(embedding_ids)batch_size=100000for i in tqdm(range(0,data_size,batch_size)):    cur_end=i+batch_size    if(cur_end>data_size):        cur_end=data_size    batch_emb=embeddings[np.arange(i,cur_end)]    status, ids = client.insert(collection_name=collection_name, vectors=batch_emb.tolist(), ids=embedding_ids[i:i+batch_size],partition_tag=partition_tag)

抽取和插入向量两步，如果机器资源不是很"富裕"的话，可能会破费很长时间。这里倡议能够先用一小部分数据进行功能测试，疾速感知，等实在部署的阶段再进行全库的操作。

插入实现后，咱们就能够通过Milvus提供的可视化工具[1]查看向量数据，别离是文档对应的ID和向量。

文档召回

召回阶段的目标是从海量的资源库中，疾速地检索出合乎Query要求的相干文档Doc。出于计算量和对线上提早的要求，个别的召回模型都会设计成双塔模式，Doc塔离线建库，Query塔实时处理线上申请。

召回模型采纳Domain-adaptive Pretraining + SimCSE + In-batch Negatives计划。

另外，如果只是想疾速测试或部署，PaddleNLP也贴心地开源了训练好的模型文件，下载即可用，这里间接贴出模型链接：

畛域预训练ERNIE：
https://bj.bcebos.com/v1/padd...\_pretrain.zip
无监督SimCSE：
https://bj.bcebos.com/v1/padd...\_model.zip
有监督In-batch Negatives：
https://bj.bcebos.com/v1/padd...\_model.zip

3.1 畛域预训练

Domain-adaptive Pretraining的劣势在之前文章已有具体介绍，不再赘述。间接给代码，具体性能都标注在前面。

domain_adaptive_pretraining/|—— scripts    |—— run_pretrain_static.sh # 动态图与训练bash脚本├── ernie_static_to_dynamic.py # 动态图转动态图├── run_pretrain_static.py # ernie1.0动态图预训练├── args.py # 预训练的参数配置文件└── data_tools # 预训练数据处理文件目录

3.2 SimCSE无监督预训练

双塔模型，采纳ERNIE 1.0热启，引入 SimCSE 策略。训练数据示例如下代码构造如下，各个文件的性能都有备注在前面，清晰明了。

simcse/├── model.py # SimCSE 模型组网代码|—— deploy    |—— python        |—— predict.py # PaddleInference        ├── deploy.sh # Paddle Inference的bash脚本|—— scripts    ├── export_model.sh # 动态图转动态图bash脚本    ├── predict.sh # 预测的bash脚本    ├── evaluate.sh # 召回评估bash脚本    ├── run_build_index.sh  # 索引的构建脚本    ├── train.sh # 训练的bash脚本|—— ann_util.py # Ann 建索引库相干函数├── data.py # 无监督语义匹配训练数据、测试数据的读取逻辑├── export_model.py # 动态图转动态图├── predict.py # 基于训练好的无监督语义匹配模型计算文本 Pair 类似度├── evaluate.py # 依据召回后果和评估集计算评估指标|—— inference.py # 动态图抽取向量|—— recall.py # 基于训练好的语义索引模型，从召回库中召回给定文本的类似文本└── train.py # SimCSE 模型训练、评估逻辑

对于训练、评估和预测别离运行scripts目录下对应的脚本即可。训练失去模型，咱们一方面能够用于提取文本的语义向量示意，另一方面也能够用于计算文本对的语义类似度，只须要调整下数据输出格局即可。

3.3 有监督微调

对上一步的模型进行有监督数据微调，训练数据示例如下，每行由一对语义类似的文本对组成，tab宰割，负样本来源于引入In-batch Negatives采样策略。

对于In-batch Negatives 的细节，能够参考文章：

大规模搜寻+预训练，百度是如何落地的？

https://mp.weixin.qq.com/s/My...

整体代码构造如下：

|—— data.py # 数据读取、数据转换等预处理逻辑|—— base_model.py # 语义索引模型基类|—— train_batch_neg.py # In-batch Negatives 策略的训练主脚本|—— batch_negative    |—— model.py # In-batch Negatives 策略外围网络结构|—— ann_util.py # Ann 建索引库相干函数|—— recall.py # 基于训练好的语义索引模型，从召回库中召回给定文本的类似文本|—— evaluate.py # 依据召回后果和评估集计算评估指标|—— predict.py # 给定输出文件，计算文本 pair 的类似度|—— export_model.py # 动态图转换成动态图|—— scripts    |—— export_model.sh  # 动态图转换成动态图脚本    |—— predict.sh  # 预测bash版本    |—— evaluate.sh # 评估bash版本    |—— run_build_index.sh # 构建索引bash版本    |—— train_batch_neg.sh  # 训练bash版本|—— deploy    |—— python        |—— predict.py # PaddleInference        |—— deploy.sh # Paddle Inference部署脚本|—— inference.py # 动态图抽取向量

训练、评估、预测的步骤和上一步无监督的相似，聪慧的你必定一看就懂了！

3.4 语义模型成果

后面说了那么多，来看看几个模型的成果到底怎么样？对于匹配或者检索模型，罕用的评估指标是Recall@K，即前TOP-K个后果检索出的正确后果数与全库中所有正确后果数的比值。

比照能够发现，首先利用ERNIE 1.0做Domain-adaptive Pretraining，而后把训练好的模型加载到SimCSE上进行无监督训练，最初利用In-batch Negatives 在有监督数据上进行训练能获得最佳的性能。

3.5 向量召回

终于到了召回，回顾一下，在这之前咱们曾经训练好了语义模型、搭建完了召回库，接下来只须要去库中检索即可。代码位于

PaddleNLP/applications/neural\_search/recall/milvus/inference.py

def search_in_milvus(text_embedding):    collection_name = 'literature_search'  # 之前搭建好的Milvus库    partition_tag = 'partition_2'    client = RecallByMilvus()    status, results = client.search(collection_name=collection_name, vectors=text_embedding.tolist(),                                    partition_tag=partition_tag)    corpus_file = "../../data/milvus/milvus_data.csv"    id2corpus = gen_id2corpus(corpus_file)    for line in results:        for item in line:            idx = item.id            distance = item.distance            text = id2corpus[idx]            print(idx, text, distance)

以输出国有企业引入非国有资本对翻新绩效的影响——基于制造业国有上市公司的教训证据为例，检索返回成果如下

返回后果的最初一列为类似度，Milvus默认应用的是欧式间隔，如果想换成余弦类似度，能够在Milvus的配置文件中批改。

文档排序

不同于召回，排序阶段因为面向的打分汇合绝对小很多，个别只有几千级别，所以能够应用更简单的模型，这里采纳 ERNIE-Gram 预训练模型，loss选用 margin\_ranking\_loss。

训练数据示例如下，三列，别离为（query，title，neg\_title）,tab宰割。对于实在搜寻场景，训练数据通常起源业务线上的点击日志，结构出正样本和强负样本。

代码构造如下

ernie_matching/├── deply # 部署    └── python        ├── deploy.sh # 预测部署bash脚本        └── predict.py # python 预测部署示例|—— scripts    ├── export_model.sh # 动态图参数导出动态图参数的bash文件    ├── train_pairwise.sh # Pair-wise 单塔匹配模型训练的bash文件    ├── evaluate.sh # 评估验证文件bash脚本    ├── predict_pairwise.sh # Pair-wise 单塔匹配模型预测脚本的bash文件├── export_model.py # 动态图参数导出动态图参数脚本├── model.py #  Pair-wise 匹配模型组网├── data.py #  Pair-wise 训练样本的转换逻辑 、Pair-wise 生成随机负例的逻辑├── train_pairwise.py # Pair-wise 单塔匹配模型训练脚本├── evaluate.py # 评估验证文件├── predict_pairwise.py # Pair-wise 单塔匹配模型预测脚本，输入文本对是类似度

训练运行sh scripts/train\_pairwise.sh即可。

同样，PaddleNLP也开源了排序模型：

https://bj.bcebos.com/v1/padd...\_gram\_sort.zip

对于预测，筹备数据为每行一个文本对，最终预测返回文本对的语义类似度。

是文化差异。', 'pred_prob': 0.85112214}{'query': '中东方语言与文化的差别', 'title': '跨文化视角下中国文化对外流传门路琐谈跨文化,中国文化,流传,翻译', 'pred_prob': 0.78629625}{'query': '中东方语言与文化的差别', 'title': '从中东方民族文化心理的差别看英汉翻译语言,文化,民族文化心理,思维形式,翻译', 'pred_prob': 0.91767526}{'query': '中东方语言与文化的差别', 'title': '中英文化差异对翻译的影响中英文化,差别,翻译的影响', 'pred_prob': 0.8601749}{'query': '中东方语言与文化的差别', 'title': '浅谈文化与语言习得文化,语言,文化与语言的关系,文化与语言习得意识,跨文化交际', 'pred_prob': 0.8944413}

总结

本文基于PaddleNLP提供的Neural Search性能本人疾速搭建了一套语义检索系统。绝对于本人从零开始，PaddleNLP十分好地提供了一套轮子。如果间接下载PaddleNLP开源训练好的模型文件，对于语义类似度工作，调用现成的脚本几分钟即可搞定！对于语义检索工作，须要将全量数据导入Milvus构建索引，除训练和建库工夫外，整个流程预计30-50分钟即可实现。

在训练的间隙还钻研了下，发现GitHub上的文档也很清晰具体啊，对于小白入门同学，做到了一键运行，不至于被繁冗的流程步骤困住而逐步失去趣味；模型全副开源，拿来即用；对于想要深入研究的同学，PaddleNLP也开源了数据和代码，能够进一步学习，赞！照着跑下来，发现PaddleNLP太香了！连忙Star珍藏一下，继续跟进最新能力吧，也示意对开源社区的一点反对~

https://github.com/PaddlePadd...

另外咱们还能够基于这些性能进行本人额定的开发，譬如开篇的动图，搭建一个更直观的语义向量生成和检索服务。Have Fun！

在跑代码过程中也遇到一些问题，非常感谢飞桨同学的急躁解答。并且得悉针对这个我的项目还有一节视频课程曾经公开，点击链接即可观看课程：

https://aistudio.baidu.com/ai...

最初附上本次实际我的项目的代码：

https://github.com/PaddlePadd...\_search

如有疑难，欢送增加飞桨小助手微信进用户交换群：

注：作者cafedo @NewBeeNLP