关于阿里云开发者:新版本发布-开放搜索的统一召回引擎实践

36次阅读

共计 2299 个字符,预计需要花费 6 分钟才能阅读完成。

简介:阿里云凋谢搜寻对立召回引擎,搜寻召回环节同时反对阿里云自研 Ha3 引擎与阿里云 Elasticsearch 引擎,并提供多行业的搜索算法能力,助力企业高效实现搜寻成果深度优化

特邀嘉宾:

邢少敏(多愚)- 阿里巴巴高级技术专家

视频地址:https://yqh.aliyun.com/live/opensearch

搜寻面临的挑战

工程挑战

  1. 百万 QPS
  • 618、双 11 等大促流动的高并发拜访
  1. 千亿级数据
  • SKU、订单、物流等大数据检索
  1. 高时效
  • 订单、物流类数据时效性要求极高
  1. 高可用
  • 分钟级不可用会导致巨额业务损失
  1. 低提早
  • 搜寻作为流量入口,提早高会导致交易量降落

算法挑战

  1. 信息标准水平低

比如说拿电商行业来讲,电商行业的商品名称,个别状况下为了进步商品排序,为了让商品排的比拟靠前,商品名称会加很多关键字,这样就会导致商品名称不标准,很多可能连语法都不太通,这个时候去剖析这些关键词是十分艰难的。

例如:

    • 宝宝棉服套装婴幼儿冬装 0 - 1 岁 3 男婴儿棉衣秋冬女保暖棉袄加厚外套;
    • 毛豆陈腐 5 斤青豆毛豆角甜豆生鲜蔬菜豌豆带壳农家现摘嫩豆荚包邮;
  1. 用意丰盛

搜寻的时候查问词的用意十分的丰盛,而后会有很多不同的这种用意。

例如:

    • 水 –(矿泉水?花露水?洗发水?)
    • 苹果 –(吃的苹果?苹果手机?)
    • 马可菠萝 –(菠萝?马可菠萝火腿肠?)
    • 丝袜奶茶 –(丝袜?奶茶?)
  1. 召回量大,排序难
  • 单次召回千万,无限资源下进行精确排序难

如果说咱们解决不好这些问题会产生什么状况呢?那么如果工程挑战和算法挑战,解决的不好,就会有用户散失的问题。

用户散失察看:

  • 用户搜寻某个关键词两次以上仍然没有后果 将认为平台无此类商品
  • 用户浏览搜寻后果超过半分钟仍未找到指标商品将 间接跳出
  • 用户浏览搜寻后果超过 4 页仍未找到指标商品将 间接跳出

搜寻产品和解决方案

对于 Elasticsearch

业内最支流的信息检索、剖析引擎,DB-Engine 指数排行“寰球热度 No.7 数据库,寰球热度 No.1 检索引擎”。宽泛的利用在各种业务场景。

阿里云 Elasticsearch 产品介绍

提供全托管 Elastic Stack 服务,100% 兼容开源,收费提供 X -Pack 商业插件,即开即用,按需付费。同时深刻性能与内核性能优化,提供更丰盛的剖析检索能力,更平安、高可用服务。

个性及劣势

  1. 低成本
  • 收费提供每个节点价值 6000 美元的 X -Pack 商业插件
  • 智能运维、高级监控告警、容灾部署等,超低运维老本
  • 针对性场景调优,进步资源利用效率,多种产品价格策略
  1. 性能与性能强劲
  • 日志增强版内核,100% 老本升高,100% 性能晋升
  • 文本、视频、音频、图像,提供最全面的信息检索能力
  • 全面对齐等保 2.0 要求,企业级数据安全能力
  • 凋谢的二次开发能力,反对各种业务场景的封装
  1. 品牌背书
  • 阿里云与 Elastic 策略单干;
  1. 丰盛行业教训
  • 为电商, 批发, 教育, 金融, 媒体, 物流等 30 个行业提供服务;
  1. 寰球服务
  • 服务笼罩全副阿里云数据中心, 并且反对本地化专有云交付,和混合云计划

阿里云凋谢搜寻产品介绍

凋谢搜寻(OpenSearch)是基于阿里巴巴自主研发的大规模分布式搜索引擎搭建的一站式智能搜寻业务开发平台,目前为包含淘宝、天猫在内的阿里团体外围业务提供搜寻服务反对。通过内置各行业的查问语义了解、机器学习排序算法等能力,提供充沛凋谢的引擎能力,助力开发者疾速搭建智能搜寻服务。

利用场景

  • 电商行业: 商品搜寻、订单搜寻、门店搜寻、数据库减速和剖析场景
  • 内容行业:新闻搜寻、社区搜寻、视频搜寻、图库搜寻
  • 多媒体行业、游戏行业、企业大数据….

外围劣势

  • 工程劣势:高性能(毫秒级端到端提早)、高稳定性(99.99% 稳定性)、高时效(毫秒级失效);
  • 算法劣势:达摩院多年积淀的 NLP 技术,多行业打磨积淀的查问剖析、搜寻排序能力;
  • 产品劣势:低门槛,免运维,开放平台;

团体内搜寻中台

  • 外围搜索引擎 HA3 从淘宝天猫搜寻孵化而来
  • 团体内 1000+ 业务接入,7000 亿 + 商品 / 文档被索引,日搜寻 PV 达百亿。
  • 2020 年双十一 QPS 峰值 110 万 +,实时数据更新 TPS 峰值 55 万 +

凋谢搜索算法产品化

凋谢搜寻是一个智能搜寻产品,在最近几年做了大量的算法产品化的工作,这外面就包含了查问剖析,多路召回、智能排序、用户行为、业务开发、成果评测等。

阿里云搜寻服务选型 - 产品生态

产品选型

开源产品 – 阿里云 Elasticsearch

  • 业界知名度高,搜寻首选平台;
  • 开源生态学习门槛低,易于把握;
  • 插件机制容许自在定制,满足不同业务需要;

阿里自研产品 – 凋谢搜寻(OpenSearch)

  • 一站式搜索引擎平台服务;
  • 外围引擎 HA3 为阿里团体外围搜寻技术,提供百万 QPS 查问能力,和千亿级别文档索引能力;
  • 内置 QP 和排序算法能力以及行业模板,实现垂直行业高质量搜寻成果;

利用生态

性能差别

对立召回引擎

满足不同用户的应用习惯,如果客户从 Elasticsearch 进行查问,能够去调用凋谢搜寻外面 QP 的性能,而后提供查问剖析的能力给客户。如果是从凋谢搜寻这块进行查问,能够原生的应用凋谢搜寻查问剖析能力。


\>> 如果有搜寻成果深度优化需要,能够填写专家征询问卷,参加试用即可收费取得凋谢搜寻通用分词能力。问卷地址:https://c.tb.cn/F3.05Srxl

如果你想与更多开发者们进行交换、理解最前沿的 搜寻与举荐 技术,能够钉钉扫码退出社群

版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0