关于elasticsearch入门教程:ElasticSearch-学习笔记一-基本概念与基本使用

4次阅读

共计 9139 个字符,预计需要花费 23 分钟才能阅读完成。

个别我介绍某个框架、MQ、中间件,个别都是讲是啥,能帮忙咱们干啥,而后用起来,高级个性。这次打算换一种格调,交叉一些小故事。写到这篇的时候,我想起我刚入行的第一个我的项目,有一个页面查问,主表两百七十万条数据,join 了七张表,第二张从表一百多万数据,残余五张大略在四五十万条数据的高低,查问大略十几秒,这样的速度必定是难以满足要求的,请 DBA 优化,优化到七秒,用户勉强能够承受了,我过后问带我的大哥,如果数据量再往上涨,更慢怎么办,我过后的大哥说,能够思考 ElasticSearch,ElasticSearch 号称亿级数据,光速查问。

缘起

许多年前,一个刚结婚的名叫 Shay Banon 的就业开发者,跟着他的妻子去了伦敦,他的妻子在那里学习厨师。在寻找一个赚钱的工作的时候,为了给他的妻子做一个食谱搜索引擎,他开始应用 Lucene 的一个晚期版本。

间接应用 Lucene 是很难的,因而 Shay 开始做一个形象层,Java 开发者应用它能够很简略的给他们的程序增加搜寻性能。他公布了他的第一个开源我的项目 Compass。

起初 Shay 取得了一份工作,次要是高性能,分布式环境下的内存数据网格。这个对于高性能,实时,分布式搜索引擎的需要尤为突出,他决定重写 Compass,把它变为一个独立的服务并取名 Elasticsearch。

第一个公开版本在 2010 年 2 月公布,从此以后,Elasticsearch 曾经成为了 Github 上最沉闷的我的项目之一,他领有超过 300 名 contributors(目前 736 名 contributors)。一家公司曾经开始围绕 Elasticsearch 提供商业服务,并开发新的个性,然而,Elasticsearch 将永远开源并对所有人可用。

据说,Shay 的妻子还在等着她的食谱搜索引擎…《Elasticsearch: 权威指南》基于 2.x 版本

那 Lucene 是啥,Lucene 是一个全文搜索引擎库,属于 Apache,全称为 Apache Lucene,Luece 能够说是当下最先进、高性能全功能的搜索引擎库, 然而 Lucene 仅仅只是一个库,应用起来比较复杂。Shay Banon 构建了一个形象层,试图对开发者屏蔽简单细节,Java 开发者应用它能够很简略的给他们的程序增加搜寻性能,这也就是 Compass,最初演变为 ElasticSearch。

全文搜寻?传统的数据库不行吗?《ElasticSearch 权威指南》给出的理由是:

可怜的是,大部分数据库在从你的数据中提取可用常识时出其不意的低效。当然,你能够通过工夫戳或准确值进行过滤,然而它们可能全文检索、解决同义词、通过相关性给文档评分么?它们能从同样的数据中生成剖析与聚合数据吗?最重要的是,它们能实时地做到上述操作,而不通过大型批处理的工作么?

从下面的这句话咱们能够提取的无效信息是,大部分关系数据不可能进行全文检索、解决同义词、通过相关性给文档进行评分。

  • 什么是全文检索(搜寻)?

Full Text Searching (or just text search) provides the capability to identify natural-language documents that satisfy a query, and optionally to sort them by relevance to the query. The most common type of search is to find all documents containing given query terms and return them in order of their similarity to the query. Notions of query and similarity are very flexible and depend on the specific application. The simplest search considers query as a set of words and similarity as the frequency of query words in the document. [1]

全文搜寻(或文本搜寻)提供辨认满足查问自然语言的能力,并且依据查问后果进行相关性进行排序。全文搜寻最为常见的是从所有文档中找出满足条件的所有文档,并依据类似度进行排序。留神查问和类似是非常灵活和依赖于具体利用的。最为简略的全文搜寻是将“查问”视为一组词,将相似性当作查问次的频率。

  • 那什么是 Document?

A document is the unit of searching in a full text search system; for example, a magazine article or email message. The text search engine must be able to parse documents and store associations of lexemes (key words) with their parent document. Later, these associations are used to search for documents that contain query words.

Document 是全文搜寻零碎的根本单元,比方杂志上的一篇文章或者一封邮件均能够被视为文档。全文搜索引擎肯定要可能解析文档,并存储文档的关键词和文档的关联。这些关联将会被用来搜寻蕴含查问此的文档。

下面的形容是不是跟咱们平时用的搜索引擎有点相似呢,咱们在搜索引擎框输出关键词,搜索引擎搜寻整个 Web,搜索引擎依据相关性进行网页排名。比方我在百度搜寻 Zookeeper,上面是百度的搜寻后果:

我在 bing 进行搜寻:

这些网页是搜索引擎依据相关性排出来的。百度还解决了同义词,Zookeeper 有动物园管理员的意思,所以动物园管理员也被带了进去。再比方 apple 官网和苹果官网就是同义词,你在百度输出这两个关键词,第一个都是苹果公司的官网。下面提到的这些在传统的关系型数据库去实现都是难以做到的,然而 Elasticsearch 就能为咱们提供。其实这里还波及一个分词的问题,举一个例子,我在搜索引擎上搜寻 ES 分词,对于搜索引擎来说,这是一个输出,他去匹配文档的时候,事实上是将 ES 分词,当成两个词:ES 分词。文档中蕴含这两个词来计算相关性。既然你能为咱们做这么多,那就只能,omg,学它。

以上性能都很像是搜索引擎的性能,所以 ElasticSearch 将本人定位为:

Elasticsearch 是一个分布式、RESTful 格调的搜寻和数据分析引擎,可能解决不断涌现出的各种用例,实用于包含文本、数字、天文空间、结构化和非结构化数据等在内的所有类型的数据.

ES 以后最新的版本是 8.3, 咱们不选最新的,咱们基于 7.17 这个版本来进行介绍。Linux 服务器基于 Centos 7

基本概念

既然是 ElstaticSearch 能够充当搜索引擎,那么它们的数据源是哪里呢,ElstaticSearch 有内置的数据源, 在某种模式能够了解为另一种模式的数据库。

Index

看到这个词,我下意识的想到了 MySQL 的索引,然而在 ES 里,索引有两个含意:

  • 名词: 一个索引相当于关系型数据库中的一个表(在 6.x 以前,一个 index 能够被认为是一个数据库)
  • 动词: 将一份 document 保留在一个 index 里,这个过程也能够称为索引。

既然一个 index 相当于关系型数据库的一个表,那 ElstaticSearch 有对应的建表语句吗?有的那就是 Mapping。

Mapping

Mapping 定义了索引里的文档到底有哪些字段及这些字段的类型,相似于数据库中表构造的定义。Mapping 有两种作用:

  • 定义了索引中各个字段的名称和对应的类型。
  • 定义了各个字段、倒排索引的相干设置,如应用什么分词器等。

须要留神的是,Mapping 一旦定义后,曾经定义的字段类型是不可更改的

type

在 6.x 之前,index 能够被了解为关系型数据库中的数据库,而 type 则被认为是数据库中的表。应用 type 容许咱们在 index 外面存储多种类型的数据,数据筛选时,能够指定 type。type 的存在从某种程度上能够缩小 index 的数量,然而 type 存在以下限度:

  • 不同 type 里的字段须要保持一致。例如,一个 index 下的不同 type 里有两个名字雷同的字段,他们的类型(string, date 等等)和配置也必须雷同。
  • 只在某个 type 里存在的字段,在其余没有该字段的 type 中也会耗费资源。
  • 得分是由 index 内的统计数据来决定的。也就是说,一个 type 中的文档会影响另一个 type 中的文档的得分。

以上限度要求咱们,只有同一个 index 的中的 type 都有相似的映射 (mapping) 时,才勉强实用 type。否则,应用多个 type 可能比应用多个 index 耗费的资源更多。

6.00 之后开始逐渐废除 type, 开始不反对一个 index 外面存在多个 type。

7.00 版本后正式破除单个索引下多 Type 的反对。

Document

Elasticsearch is a distributed document store. Instead of storing information as rows of columnar data, Elasticsearch stores complex data structures that have been serialized as JSON documents

ElasticSearch 存储文档的形式是分布式存储,与存储列式数据不同,ES 存储的是序列为 JSON 的文档。

下面曾经讲了一些基本概念了,上面咱们将 ElasticSearch 装起来,在实践中介绍其余外围概念。

装起来

装置 ES

wget https://artifacts.elastic.co/downloads/elasticsearch/elasticsearch-7.17.0-linux-x86_64.tar.gz
mkdir es
mv elasticsearch-7.17.0-linux-x86_64.tar.gz  es
# ES 7 当前自带 JDK, 你在解压过程中会发现 ES 自带的 JDK 有 module 这个概念, 曾经不是 JDK8 喽
# 曾经是 JDK 17 了
tar xvf elasticsearch-7.17.0-linux-x86_64.tar.gz 
# 为前面搭建集群做筹备
mv elasticsearch-7.17.0  es_node1

ES 目录大抵介绍

目录 形容
bin 蕴含一些执行脚本,其中 ES 的启动文件和脚本安装文件就在这里
config 蕴含集群的配置文件(elasticsearch.yml)、jvm 配置(jvm.options)、user 等相干配置
JDK 7.0 后自带 jdk,java 运行环境
lib java 的类库
plugins 插件装置的目录
modules 蕴含所有 ES 的模块

批改配置

尽管 ES 号称开箱即用,但咱们还是要改一些配置的,ES 的配置文件次要在 config 目录下,咱们主关注的是两个目录:

  • elasticsearch.yml

elasticsearch.yml 是用来配置 ES 服务的各种参数的

  • jvm.options

jvm.options 次要保留 JVM 相干的配置。

echo -e '\n' >> config/elasticsearch.yml
# 向 yml 追加配置
echo 'cluster.name: my_app' >> config/elasticsearch.yml

echo 'node.name: my_node_1' >> config/elasticsearch.yml

echo 'path.data: ./data' >> config/elasticsearch.yml

echo 'path.logs: ./logs' >> config/elasticsearch.yml

echo 'http.port: 9211' >> config/elasticsearch.yml
# 容许任意 ip 直连, 实在环境不要设置为 0.0.0.0
echo 'network.host: 0.0.0.0' >> config/elasticsearch.yml

echo 'discovery.seed_hosts: ["localhost"]' >> config/elasticsearch.yml

echo 'cluster.initial_master_nodes: ["my_node_1"]' >> config/elasticsearch.yml

echo -e '\n' >> config/jvm.options

# 设置堆内存最小值

echo '-Xms1g' >> config/jvm.options

# 设置堆内存最大值

echo '-Xmx1g' >> config/jvm.options

sudo su

echo -e '\nvm.max_map_count=262144' >> /etc/sysctl.conf

sysctl -p

exit;

运行 ES

# 留神,ES 不能应用 root 来运行!!!!这里咱们新建个用户
adduser es_study
# 这里我将明码设置为 my_studyes001
passwd  es_study 
# 将 esnode1 这个文件夹授予给 es_study
chown -R es_study es_node1/
# 该 limits.conf  
# 追加 * soft nofie 65536  
# 追加 * hard nofile 65536
vim /etc/security/limis.conf 
# 而后从新登录,如果上面命令输入 65536 代表失效
ulimit -H -n
# 切换用户
su es_study
# 到 bin 目录下 
 ./elasticsearch

而后拜访 ES 所在主机 ip:9211, 呈现上面:

{
  "name" : "my_node_1",
  "cluster_name" : "my_app",
  "cluster_uuid" : "G6WNl_15TFmJ6VhDJIXfCw",
  "version" : {
    "number" : "7.17.0",
    "build_flavor" : "default",
    "build_type" : "tar",
    "build_hash" : "bee86328705acaa9a6daede7140defd4d9ec56bd",
    "build_date" : "2022-01-28T08:36:04.875279988Z",
    "build_snapshot" : false,
    "lucene_version" : "8.11.1",
    "minimum_wire_compatibility_version" : "6.8.0",
    "minimum_index_compatibility_version" : "6.0.0-beta1"
  },
  "tagline" : "You Know, for Search"
}

阐明装置胜利, 因为我配置了环境变量, 所以用的还是 JDK 8, 然而这次我想让 ES 用 JDK 17.

# 在 /etc/profile 中退出 ES_JAVA_HOME 即可
vim /etc/profile
source /etc/profile
export ES_JAVA_HOME=/usr/es/es_node1/jdk

装置 Kibana

Kibana 是官网的数据分析和可视化平台,但当初咱们只须要把它当作 ES 查问的调试工具即可。 Kibana 与 ES 的版本是有对应关系的,所以须要下载与 ES 同版本的 Kibana。

# 留神 kibana 也不能在 root 用户上面运行, 咱们还是要用下面的用户来启动 授予权限
wget https://artifacts.elastic.co/downloads/kibana/kibana-7.17.0-linux-x86_64.tar.gz
tar xvf kibana-7.17.0-linux-x86_64.tar.gz
mv kibana-7.17.0-linux-x86_64 kibana
cd kibana
# 须要留神的是,线上肯定不能配置 ip 为 0.0.0.0,这是十分危险的行为!!!echo -e '\nserver.host:"0.0.0.0"' >> config/kibana.yml
echo -e '\nelasticsearch.hosts: ["http://localhost:9211"]' >> config/kibana.yml
chown -R es_study kibana
./bin/kibana >> run.log 2>&1 &

而后拜访 ES 所在主机 ip:5601, 看到如下图所示:

用起来

费了那么大劲,终于装好了, 当初咱们在 Kibana 中用起来。下面咱们提到 ES 是一个分布式、RESTful 格调的搜寻和数据分析引擎,可能解决不断涌现出的各种用例。思考有的同学还不晓得 RESTFul 格调,这里简略介绍一下, HTTP 有若干种申请形式,让申请形式和 CRUD 能对的上:

  • POST 新增
  • PUT 更新
  • DELETE 删除
  • GET 获取资源

对索引进行治理 -Mapping

  • 创立索引
PUT books
{
  "mappings": {
    "properties": {
      "book_id": {"type": "keyword"},
      "name": {"type": "text"},
         "price":{
        "type":"scaled_float",
         "scaling_factor": 100
      },
      "author": { 
       "properties": {"first": { "type": "text"},
          "last":  {"type": "text"}
       }  
    }
  }
}
}   

下面定义了一个通过 ElasticSearch 的 Mapping 简略定义了一个索引, type 代表数据类型,ES 常见的数据类型有:

  • keyword

keyword 类型更适宜存储简短、结构化的字符串。例如产品 ID、产品名字等

  • text

text 类型的字段适宜存储全文本数据,如短信内容、邮件内容等。

  • 数字类型(long, integer, short, byte, double, float, half_float, scaled_float…)

    • 就整数类型而言 (byte short integer long) 而言,该当抉择满足要求的最小类型
    • 对于浮点类型来说, 应用缩放因子将浮点数据存储到整数中通常更为无效,这也就是咱们下面用到的 scaled_float. 如果输出时 23.45,ES 会将输出的价格是 23.456 乘以 100, 再取一个靠近原始值的数字,得出 2346。应用比例因子的益处是整型比浮点型更易压缩,节俭空间,节俭磁盘空间。
  • 对象类型

简略来说就是字段的值还是一个 json 对象。

咱们登上 Kibana 的 DevTools 输出下面的 Mapping 命令:

  • 删除索引
DELETE books

对文档的增删改查

  • create

    • INDEX API 创立

      这种形式指定了文档的 API

    PUT books/_doc/1 
    {
      "book_id": "4ee82462",
      "name": "母猪的产后护理(一)",
      "price":"23.56",  
      "author": {"first":"wang","last":"小明"}
    }

    如果在 Kibana 中间断运行,不会报错,也不会反复创立,版本号会产生扭转:

    在 ES 中索引一个文档的时候,如果文档 ID 曾经存在,会先删除旧文档,而后再写入新文档的内容,并且减少文档的版本号。

    • 创立文档(create doc)

      POST books/_doc
      {
        "book_id": "4ee824621",
        "name": "母猪的产后护理(二)",
        "price":"23.56",  
        "author": {"first":"wang","last":"小明"}
      }

      应用 post 形式创立文档由 ES 生成 ID,间断运行下面的命令,会发现版本号没产生扭转,阐明是间断新增。

  • QUERY

    • 查问 ID 为 1 的文档
    GET books/_doc/1

    GET API 提供了多个参数, 更多的信息请参考官网文档,

    • 批量查问
    # 参数中指定 index
    GET /_mget
    {
      "docs": [{ "_index": "books", "_id": "1"},
        {"_index": "books", "_id": "00IDB4IBeGTeMZoVN5XN"}
      ]
    }
    # 在 URL 中指定 index
    GET /_mget
    {
      "docs": [{ "_index": "books", "_id": "1"},
        {"_index": "books", "_id": "00IDB4IBeGTeMZoVN5XN"}
      ]
    }
    # 简写
    GET /books/_mget
    {"ids" : ["1", "00IDB4IBeGTeMZoVN5XN"]
    }
  • update
POST books/_update/1
{
  "doc": {"name":"平凡的傅里叶变换"}
}

下面的索引文档也能更新,那跟这种形式的更新由什么区别呢,索引文档的更新成果是先删除数据,而后再写入旧数据。如果咱们只想更新一个字段,并只给了更新的字段,那么其余字段就会被抹去。

  • delete

    在参数上指定 id 即可。

DELETE books/_doc/1

那么如果咱们想批量操纵索引中的文档呢?ElstaticSearch 为咱们提供了 Bulk API 操纵批量解决文档。Bulk API 中能够同时反对 4 种类型的操纵:

  • Index
  • Create
  • Update
  • Delete

语法示例:

POST _bulk
{"index" : { "_index" : "books", "_id" : "3"} }  #指定操纵类型 哪个索引和文档
{"book_id": "4ee82462","name":"天生吾战"}
{"delete":{"_index": "books", "_id":"2"}}
{"update":{"_index":"books","_id":3}}
{"doc":{"name":"母猪的产后护理(四)"}}

历程

个别我还是先去 ElasticSearch 的官网去看文档,ES 有中武官网,然而汉化了一部分,ES 官网放的有《Elasticsearch: 权威指南》,惋惜是基于 2.x 版本:

  • https://www.elastic.co/guide/…

高版本放的都有用户指南:

本文的装置教程基本上利用了掘金小册《Elasticsearch 从入门到实际》

参考文档

  • 全文搜寻 https://docs.microsoft.com/zh…
  • Elasticsearch(015):es 常见的字段映射类型之数字类型(numeric) https://blog.csdn.net/weixin_…
  • ElasticSearch GET 文档 https://www.elastic.co/guide/…
  • 《Elasticsearch 从入门到实际》掘金小册 https://juejin.cn/book/705475…
正文完
 0