简介: 开源最大的特色就是开放性,云生态则让开源技术更具开放性与创造性,Elastic 与阿里云的单干正是开源与云生态共生共荣的榜样。值此单干三周年之际,咱们邀请业界资深人士相聚云端,共话云上Elasticsearch生态与技术的将来。

开源最大的特色就是开放性,云生态则让开源技术更具开放性与创造性,Elastic 与阿里云的单干正是开源与云生态共生共荣的榜样。值此单干三周年之际,咱们邀请业界资深人士相聚云端,共话云上Elasticsearch生态与技术的将来。

本篇内容是企查查搜寻部门经理范兆明分享的Elasticsearch在企查查的利用实际。
分享人:企查查搜寻部门经理范兆明

视频地址:http://cloud.video.taobao.com/play/u/3177173649/p/1/e/6/t/1/297441406466.mp4

家喻户晓,企查查是一家业余做工商查问的公司,所有的业务入口都是基于查问实现的,能够说查问是实现企查查价值的次要入口。所以,本篇内容将介绍Elasticsearch在企查查的利用实际。

企查查遇到阿里云ES时的情况是,海量的数据无奈存储,存储后的数据无奈做大规模的剖析,实时的用户行为得不到到监控。基于这些痛点,让企查查在寻找解决办法的过程中遇到并意识了阿里云ES。通过搭建ELK日志剖析平台、日志剖析、全文检索等性能,充沛的理解和相熟了ES。

ES次要的技术革新和特点,总结而言有三个:架构天生分布式、检索全文和构造、剖析实时聚合。

架构天生分布式

ES天生的分布式架构能够通过硬件扩容的形式实现海量数据的收缩,并且它的正本模式可能解决数据安全问题。

检索全文和构造

通过Lucene的倒排索引、Bm25的全文检索和高效的结构化检索,可能满足大部分搜寻场景。

剖析实时聚合

实时的海量聚合能力和多聚合模式可能实现大部分剖析场景。

基于以上ES的能力,最终企查查抉择了阿里云ES。那么阿里云在ES的根底上又带来了哪些方面的便捷呢?

优良的NLP分词器

阿里云ES具备优良的NLP分词器能力。目前支流的ES中文分词器有IK和ANSJ等次要的几种,企查查抉择了IK和ANSJ后,荡涤了大概百万级的根底数据,而后导入到IK和ANSJ。通过阿里云分词器比照了IK和ANSJ分词器发现,基于NLP的阿里云分词器更优良。

区别就在于,基于NLP的阿里云分词器能够在不同场景解析出不同的语义,实现不同分词,所以企查查最终的解决方案是,以阿里云分词器为主,以ANSJ分词器为辅做了两套分词模式,同时利用于文档搜寻。

一站式治理和高效扩大

这两个特点本来就是云平台的人造劣势,这也是为什么中小企业和高速倒退企业会抉择云平台的根本原因。

企查查基于阿里云Elasticsearch设计的利用实际,这里给大家介绍几个外围的数据。

5000+QPS
5000+QPS是指实时峰值QPS达到每秒5000;

200+利用
200+是指目前有200个数据维度参加了实时搜寻;

8TB数据
8TB是指所有实时搜寻数据加起来超过8TB。

从下图企查查的倒退历程能够发现,2014年企查查只有繁多的工伤搜寻维度;倒退到2020年底,企查查曾经超过了200多个搜寻维度。疾速的版本迭代、数据爆炸式的增长、爆炸式的用户申请等等都在阿里云ES上都失去了很好的体现。因为阿里云具备足够稳固、疾速扩容、大大减少经营老本和搜寻故障等特点,在这些年的倒退中一直的晋升企查查的搜寻体验。

企查查的技术特点

企查查波及到的其余技术特点跟全文检索特点是一样的,包含高并发、海量数据、实时聚合和分词等特点。高并发和实时聚合也是ES所善于的,再加上阿里云优良的NLP分词器,两两作用后让企查查搜寻体验更优良。

搜寻的目标

咱们越来越器重搜寻并一直进步搜寻体验,那么搜寻须要出现的后果是怎么的呢?

第一个是精准搜寻。顾名思义,就是把搜索词和文本词齐全匹配的后果返回给用户;

第二个是分词匹配。分词匹配是目前搜寻技术的支流,也是最难实现的。难度在于,尽管有基于语义的分词器,如基于NLP的阿里云,但依然会有分词异样和分词歧义的时候。根底数据的权重配比、荡涤排序是否达到用户预期和搜寻用意,都是长期迭代的工作。

第三个是意义搜寻。意思是当用户搜寻的词,在精准搜寻和分词搜寻都没有匹配,但实际上意义是一样时提供的服务,比方番茄和西红柿,或是同音字和形近字,这个时候就会须要意义搜寻。意义搜寻就是把同义字、同音字和形近字都反馈给搜寻用户。

第四个是用意搜寻。当用户搜了一大段内容,然而在分词、精准和意义搜寻里都没有方法找到搜寻后果时,就须要提取用户搜寻的外围词, 而后用外围词再去搜寻并反馈给用户后果。

第五个是局部匹配搜寻。意思是当上述四个搜寻都没有后果的时候,须要将局部匹配出的后果反馈给用户。

Elasticsearch还能带来什么?

目前ES在机器学习方面做了继续迭代,能够主动发现实时数据异样,主动实现业务的实时监控。

ES能够做更深层次的数据分析,还能够将发现数据的外围词和数据的特点举荐给搜寻的用户。



原文链接
本文为阿里云原创内容,未经容许不得转载。