共计 1369 个字符,预计需要花费 4 分钟才能阅读完成。
业务痛点
因为用户搜寻习惯的不同,搜寻时输出的关键词往往会存在差别,这导致搜索引擎无奈召回与搜索词文本不统一但实际上是用户冀望的后果。比方,用户搜寻“棉袄”时,通用文本检索将无奈搜寻到“棉服”相干的内容,影响用户的搜寻效率与应用体验。解决此类问题最无效的办法之一是应用同义词性能。
痛点一:行业属性强
因为业务场景的多样性,不同行业、垂类之间的同义词可能存在着微小的差别,通用的开源同义词模型难以笼罩细分业务场景。比方在电商场景下,会因业务特殊性生成专属的品牌词、别名、简称等同义词,在这种状况下,业务同义词的开掘与保护成为晋升搜寻召回成果的痛点之一。
痛点二:自建同义词老本高、难度大
为解决上述业务痛点,自建同义词模型是业务常见的计划之一,自建同义词模型次要蕴含以下流程:
- 难点 1:同义词标注畛域常识要求高,对于查问词中不同词在搜索引擎中的重要性判断难。同时数据量也至多须要达到万级别,耗时可能长达数月。
- 难点 2:模型训练门槛高,须要业余的算法从业人员进行调试,且模型成果、迭代效率强依赖与算法工程师的投入和能力。
- 难点 3:模型部署、运维流程简单,须要工程、算法、运维等多方参加,且深度模型的上线还波及性能、效率相干的诸多优化。
综上,自建同义词模型对工夫、人力、资源的投入均绝对较高,且模型成果强依赖于业余算法人员的能力,往往投入了很多老本却无奈晋升搜寻成果。
凋谢搜寻定制同义词解决方案
计划介绍
在进行搜寻文本搜寻前,凋谢搜寻 OpenSearch 会对用户输出关键词进行查问语义剖析和解决。其中,同义词性能次要是对查问词进行同义扩大,扩充召回和查问词同义的文档。因为业务场景的多样性,不同行业、不同业务都有各自的特殊性,只有具体到利用级别的同义词模型能力保障最优的搜寻成果。
OpenSearch 提供了丰盛的面向特定畛域的同义词模型,用户能够基于对应的行业,通过简略的配置训练失去专属的定制同义词模型。训练实现后,用户可在控制台中查看差别率、同义词 case 比照等模型成果,等到成果合乎预期后,即可在凋谢搜寻中应用该定制同义词模型,并反对同义词成果人工干预。
整个定制过程无需进行额定的数据对接、标注、模型调参、部署、运维等工作,在更低附加老本下实现模型定制与搜寻成果调优。
实用客户
- 搜寻为外围业务重要场景,对搜寻有更高成果要求的客户
- 行业、垂类、业务非凡,有较多专属名词的客户
- 搜寻投入人力无限,算法同学绝对较少的客户
应用办法
- 在行业算法版 - 召回配置中创立召回定制 - 同义词模型并开启训练;
- 配置查问剖析并援用已训练的召回定制 - 同义词模型;
- 依据业务需要通过干涉词典调整召回定制 - 同义词模型;
更多应用阐明请参考:https://help.aliyun.com/document_detail/467943.html
成果比照
电商场景成果比照
医疗场景成果比照
小结
- 如果您的业务目前正在或筹备应用 OpenSearch 行业算法版,能够在行业模型的根底上训练定制同义词模型;
- 如果 OpenSearch 还没有提供与您业务靠近的行业,倡议抉择在行业算法版 - 通用行业的根底上训练定制同义词模型,这种状况须要数据尽量丰盛,散布尽量全面平衡,有助于晋升模型成果;
- 凋谢搜寻目前还反对定制分词器、定制词权重模型,后续还会提供更多定制召回模型,敬请期待~
原文链接
本文为阿里云原创内容,未经容许不得转载。