关于云计算:新功能-OpenSearch-上线定制同义词模型

业务痛点

因为用户搜寻习惯的不同，搜寻时输出的关键词往往会存在差别，这导致搜索引擎无奈召回与搜索词文本不统一但实际上是用户冀望的后果。比方，用户搜寻“棉袄”时，通用文本检索将无奈搜寻到“棉服”相干的内容，影响用户的搜寻效率与应用体验。解决此类问题最无效的办法之一是应用同义词性能。

痛点一：行业属性强

因为业务场景的多样性，不同行业、垂类之间的同义词可能存在着微小的差别，通用的开源同义词模型难以笼罩细分业务场景。比方在电商场景下，会因业务特殊性生成专属的品牌词、别名、简称等同义词，在这种状况下，业务同义词的开掘与保护成为晋升搜寻召回成果的痛点之一。

痛点二：自建同义词老本高、难度大

为解决上述业务痛点，自建同义词模型是业务常见的计划之一，自建同义词模型次要蕴含以下流程：

难点1：同义词标注畛域常识要求高，对于查问词中不同词在搜索引擎中的重要性判断难。同时数据量也至多须要达到万级别，耗时可能长达数月。
难点2：模型训练门槛高，须要业余的算法从业人员进行调试，且模型成果、迭代效率强依赖与算法工程师的投入和能力。
难点3：模型部署、运维流程简单，须要工程、算法、运维等多方参加，且深度模型的上线还波及性能、效率相干的诸多优化。

综上，自建同义词模型对工夫、人力、资源的投入均绝对较高，且模型成果强依赖于业余算法人员的能力，往往投入了很多老本却无奈晋升搜寻成果。

凋谢搜寻定制同义词解决方案

计划介绍

在进行搜寻文本搜寻前，凋谢搜寻OpenSearch会对用户输出关键词进行查问语义剖析和解决。其中，同义词性能次要是对查问词进行同义扩大，扩充召回和查问词同义的文档。因为业务场景的多样性，不同行业、不同业务都有各自的特殊性，只有具体到利用级别的同义词模型能力保障最优的搜寻成果。

OpenSearch提供了丰盛的面向特定畛域的同义词模型，用户能够基于对应的行业，通过简略的配置训练失去专属的定制同义词模型。训练实现后，用户可在控制台中查看差别率、同义词case比照等模型成果，等到成果合乎预期后，即可在凋谢搜寻中应用该定制同义词模型，并反对同义词成果人工干预。

整个定制过程无需进行额定的数据对接、标注、模型调参、部署、运维等工作，在更低附加老本下实现模型定制与搜寻成果调优。

实用客户

搜寻为外围业务重要场景，对搜寻有更高成果要求的客户
行业、垂类、业务非凡，有较多专属名词的客户
搜寻投入人力无限，算法同学绝对较少的客户

应用办法

在行业算法版-召回配置中创立召回定制-同义词模型并开启训练；
配置查问剖析并援用已训练的召回定制-同义词模型；
依据业务需要通过干涉词典调整召回定制-同义词模型；

更多应用阐明请参考：https://help.aliyun.com/document_detail/467943.html

成果比照

电商场景成果比照

医疗场景成果比照

小结

如果您的业务目前正在或筹备应用OpenSearch行业算法版，能够在行业模型的根底上训练定制同义词模型；
如果OpenSearch还没有提供与您业务靠近的行业，倡议抉择在行业算法版-通用行业的根底上训练定制同义词模型，这种状况须要数据尽量丰盛，散布尽量全面平衡，有助于晋升模型成果；
凋谢搜寻目前还反对定制分词器、定制词权重模型，后续还会提供更多定制召回模型，敬请期待~

原文链接

本文为阿里云原创内容，未经容许不得转载。

关于云计算:新功能-OpenSearch-上线定制同义词模型

业务痛点

痛点一：行业属性强

痛点二：自建同义词老本高、难度大

凋谢搜寻定制同义词解决方案

计划介绍

实用客户

应用办法

成果比照

电商场景成果比照

医疗场景成果比照

小结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于云计算:新功能-OpenSearch-上线定制同义词模型

业务痛点

痛点一：行业属性强

痛点二：自建同义词老本高、难度大

凋谢搜寻定制同义词解决方案

计划介绍

实用客户

应用办法

成果比照

电商场景成果比照

医疗场景成果比照

小结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复