关于elasticsearch:一文详解-开放搜索兼容Elasticsearch做召回引擎

116次阅读

共计 2008 个字符,预计需要花费 6 分钟才能阅读完成。

简介:凋谢搜寻公布开源兼容版,反对阿里云 Elasticsearch 做搜寻召回引擎,本文具体介绍阿里云 ES 用户如何通过接入凋谢搜寻兼容版丰盛行业分词库,晋升查问语义理解能力,无需开发、算法投入,即可取得淘系同款搜寻成果。

凋谢搜寻开源兼容版简介

很多客户在搭建搜寻业务时更相熟开源技术栈,会抉择 Elasticsearch/Solr 等开源引擎负责搜寻的召回环节,然而在召回引擎以外训练 NLP、排序等算法能力,不仅耗时耗力,而且大部分处于高投入低回报的状态。

凋谢搜寻开源兼容版的 Elasticsearch 引擎则是基于阿里巴巴在搜寻畛域的积攒,凋谢搜寻的 Elasticsearch 引擎实例作为一个阿里云 Elasticsearch 的插件,运行在用户的阿里云 Elasticsearch 集群中,提供阿里自研行业分词能力、Query 剖析理解能力,从而缩小了用户对算法模块的投入,能够将更多精力投入到业务转化、产品性能等需要上。

业务流程图:

凋谢搜寻兼容版劣势

  • 基于阿里巴巴多年词库积攒及达摩院 NLP 技术,丰盛 Elasticsearch 开源引擎分词库,晋升搜寻成果;

在通用分词根底上还减少行业分词能力,可笼罩电商、IT 内容、教育、游戏、互娱等行业。

  • 赋予 Elasticsearch 引擎 Query 理解能力,精准定位用户搜寻用意;

通过对 Query 进行一系列智能语义剖析(拼写纠错、同义词改写、词权重、停用词、实体辨认)了解用户搜寻用意,改写用户搜寻 Query,使召回后果更合乎需要;

  • 提供自定义分词、查问剖析干涉词典的能力,在凋谢搜寻控制台配置后会即便失效

用户可依据本身业务进行调整和优化,高效响应搜寻需要,晋升搜寻成果和用户体验;

开源兼容版 ES 引擎实例创立及配置

一、创立 Elasticsearch 引擎实例

1. 登录凋谢搜寻控制台,并进入实例治理 -Elasticsearch 引擎页面,点击创立利用:

2. 页面会跳转至 Elasticsearch 搜寻增强版售卖页,抉择创立利用须要的磋商类型、地区,填写好利用名称,抉择资源组,最初点击立刻购买即可:

3. 创立胜利后,即可在实例治理 -Elasticsearch 引擎页面查看新创建的利用实例:

二、配置 Elasticsearch 引擎实例

配置利用蕴含关联阿里云 Elasticsearch 实例、装置插件、配置实现三步:

实例治理 -Elasticsearch 引擎页面,找到待配置状态的实例,点击配置,进入关联阿里云 Elasticsearch 利用页面:

装置插件:

点击“确定”,则开始装置自定义插件(会触发 Elasticsearch 集群重启):

配置胜利,期待插件装置:

三、Elasticsearch 引擎实例搜寻测试

在阿里云 Elasticsearch 控制台实例详情页中确认凋谢搜寻的“Elasticsearch 搜寻增强版自定义插件”是否曾经装置:

登录 Elasticsearch 可视化控制台通过 Dev Tools 工具测试已装置的插件:

理解更多具体配置内容,查看产品文档:https://help.aliyun.com/docum…

客户案例

某新批发客户,打造 1 公里社区网店服务,为用户提供吃、喝、玩、乐一体化生存服务。

客户搜寻业务痛点

自建搜寻成果差,搜不准、搜不到间接影响用户体验;
不足行业分词库,自研难度大,开发周期长,难以响应业务需要;
成熟的搜索引擎波及离线模块、在线模块、查问了解服务、算法平台等零碎组成,所需大量开发、算法调优以及继续的简单运维工作,自建成本高;

开源兼容版解决方案

调用凋谢搜寻电商行业分词库

集成淘宝搜寻同款电商分词器,训练语料来自淘宝搜寻多年积攒的百万级有标注的电商行业数据,可精确辨认商品品牌、品类、产品个性等电商属性 query;

调用电商查问语义了解性能

  • 电商拼写纠错

用户输出的 query 并不总是正确的,谬误的输出可能导致查问后果不合乎预期或者是无后果,因而须要对用户的输出进行拼写查看。OpenSearch 的查问剖析中提供的拼写查看性能,对查问词中的谬误进行纠正,给出正确的查问词。并依据纠错的可信度高下,决定以后查问是否用纠错后的词进行查问。

  • 电商同义词

同义词性能次要是对查问词进行同义扩大,扩充召回和查问词同义的文档。

  • 电商实体辨认

全称命名实体辨认(Named Entity Recognition,简称 NER),指对查问词中的具备特定意义的语义实体进行辨认。查问剖析依据辨认的后果,根据实体类型的权重对查问词进行改写,使得召回的文档合乎查问的用意。

成果反馈

无需额定投入人力资源,在不扭转现有 ES 应用习惯状况下,从理解到测试到接入上线短短 15 天就取得高质量搜寻成果,企业有更多资源精力投入到产品性能和业务晋升中去。

  • 商品搜寻无后果率 30% 降至 5% 以下,指标还在继续优化中;
  • 搜寻疏导的业务转化率增长 7%;
  • 商家店铺搜寻 CTR 晋升 5%,将间接影响拉动商家入住和广告营收;

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0