乐趣区

关于elasticsearch:Elasticsearch生态技术峰会-Elasticsearch在企查查的应用实践

简介: 开源最大的特色就是开放性,云生态则让开源技术更具开放性与创造性,Elastic 与阿里云的单干正是开源与云生态共生共荣的榜样。值此单干三周年之际,咱们邀请业界资深人士相聚云端,共话云上 Elasticsearch 生态与技术的将来。

开源最大的特色就是开放性,云生态则让开源技术更具开放性与创造性,Elastic 与阿里云的单干正是开源与云生态共生共荣的榜样。值此单干三周年之际,咱们邀请业界资深人士相聚云端,共话云上 Elasticsearch 生态与技术的将来。

本篇内容是企查查搜寻部门经理范兆明分享的 Elasticsearch 在企查查的利用实际。
分享人:企查查搜寻部门经理范兆明

视频地址:http://cloud.video.taobao.com/play/u/3177173649/p/1/e/6/t/1/297441406466.mp4

家喻户晓,企查查是一家业余做工商查问的公司,所有的业务入口都是基于查问实现的,能够说查问是实现企查查价值的次要入口。所以,本篇内容将介绍 Elasticsearch 在企查查的利用实际。

企查查遇到阿里云 ES 时的情况是,海量的数据无奈存储,存储后的数据无奈做大规模的剖析,实时的用户行为得不到到监控。基于这些痛点,让企查查在寻找解决办法的过程中遇到并意识了阿里云 ES。通过搭建 ELK 日志剖析平台、日志剖析、全文检索等性能,充沛的理解和相熟了 ES。

ES 次要的技术革新和特点,总结而言有三个:架构天生分布式、检索全文和构造、剖析实时聚合。

架构天生分布式

ES 天生的分布式架构能够通过硬件扩容的形式实现海量数据的收缩,并且它的正本模式可能解决数据安全问题。

检索全文和构造

通过 Lucene 的倒排索引、Bm25 的全文检索和高效的结构化检索,可能满足大部分搜寻场景。

剖析实时聚合

实时的海量聚合能力和多聚合模式可能实现大部分剖析场景。

基于以上 ES 的能力,最终企查查抉择了阿里云 ES。那么阿里云在 ES 的根底上又带来了哪些方面的便捷呢?

优良的 NLP 分词器

阿里云 ES 具备优良的 NLP 分词器能力。目前支流的 ES 中文分词器有 IK 和 ANSJ 等次要的几种,企查查抉择了 IK 和 ANSJ 后,荡涤了大概百万级的根底数据,而后导入到 IK 和 ANSJ。通过阿里云分词器比照了 IK 和 ANSJ 分词器发现,基于 NLP 的阿里云分词器更优良。

区别就在于,基于 NLP 的阿里云分词器能够在不同场景解析出不同的语义,实现不同分词,所以企查查最终的解决方案是,以阿里云分词器为主,以 ANSJ 分词器为辅做了两套分词模式,同时利用于文档搜寻。

一站式治理和高效扩大

这两个特点本来就是云平台的人造劣势,这也是为什么中小企业和高速倒退企业会抉择云平台的根本原因。

企查查基于阿里云 Elasticsearch 设计的利用实际,这里给大家介绍几个外围的数据。

5000+QPS
5000+QPS 是指实时峰值 QPS 达到每秒 5000;

200+ 利用
200+ 是指目前有 200 个数据维度参加了实时搜寻;

8TB 数据
8TB 是指所有实时搜寻数据加起来超过 8TB。

从下图企查查的倒退历程能够发现,2014 年企查查只有繁多的工伤搜寻维度;倒退到 2020 年底,企查查曾经超过了 200 多个搜寻维度。疾速的版本迭代、数据爆炸式的增长、爆炸式的用户申请等等都在阿里云 ES 上都失去了很好的体现。因为阿里云具备足够稳固、疾速扩容、大大减少经营老本和搜寻故障等特点,在这些年的倒退中一直的晋升企查查的搜寻体验。

企查查的技术特点

企查查波及到的其余技术特点跟全文检索特点是一样的,包含高并发、海量数据、实时聚合和分词等特点。高并发和实时聚合也是 ES 所善于的,再加上阿里云优良的 NLP 分词器,两两作用后让企查查搜寻体验更优良。

搜寻的目标

咱们越来越器重搜寻并一直进步搜寻体验,那么搜寻须要出现的后果是怎么的呢?

第一个是精准搜寻。顾名思义,就是把搜索词和文本词齐全匹配的后果返回给用户;

第二个是分词匹配。分词匹配是目前搜寻技术的支流,也是最难实现的。难度在于,尽管有基于语义的分词器,如基于 NLP 的阿里云,但依然会有分词异样和分词歧义的时候。根底数据的权重配比、荡涤排序是否达到用户预期和搜寻用意,都是长期迭代的工作。

第三个是意义搜寻。意思是当用户搜寻的词,在精准搜寻和分词搜寻都没有匹配,但实际上意义是一样时提供的服务,比方番茄和西红柿,或是同音字和形近字,这个时候就会须要意义搜寻。意义搜寻就是把同义字、同音字和形近字都反馈给搜寻用户。

第四个是用意搜寻。当用户搜了一大段内容,然而在分词、精准和意义搜寻里都没有方法找到搜寻后果时,就须要提取用户搜寻的外围词,而后用外围词再去搜寻并反馈给用户后果。

第五个是局部匹配搜寻。意思是当上述四个搜寻都没有后果的时候,须要将局部匹配出的后果反馈给用户。

Elasticsearch 还能带来什么?

目前 ES 在机器学习方面做了继续迭代,能够主动发现实时数据异样,主动实现业务的实时监控。

ES 能够做更深层次的数据分析,还能够将发现数据的外围词和数据的特点举荐给搜寻的用户。



原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版