关于java:elastic-stack-那些事2

7次阅读

共计 494 个字符,预计需要花费 2 分钟才能阅读完成。

倒排索引与正排索引

  1. 正排索引相似书的目录

    1. 由书的章节指向章节关键词
    2. es 中文档 id 对应的单词
  2. 倒排索引相似书的索引

    1. 由内容的关键词指向页数
    2. es 单词对应文档 id
  3. 倒排索引的应用

    1. 通过倒排索引获取关键词的文档 id
    2. 通过正排索引查出对应 id 文档
    3. 返回文档内容

倒排索引由 单词词典和倒排列表组成

  1. 单词词典 term dictionary

    1. 记录所有文档的单词
    2. 记录单词到倒排列表的关联信息
    3. 个别用 B + Tree 实现
  2. 倒排列表 posting list

    1. 记录了单词对应的文档汇合 由倒排索引项组成
    2. 倒排索引项包含:文档 Id 单词频率 地位 偏移

分词

  1. 指将文本转换成一系列单词的过程,也能够叫做文本剖析,在 es 中成为 Analysis。
  2. 分词器 es 中专门解决分词器的组件,英文为 Analyzer,组成如下 也是 analyzer 调用的程序

    1. character filter 针对原始文本进行解决 例如 去除 html 标记
    2. tokenizer 将原始文本依照肯定的会泽切分为单词
    3. token filter 针对 tokenizer 解决的单词再加工 例如 转小写等

analyzer api

es 提供测试分词的 api 接口,_analyzer

  1. 能够间接指定 analyzer
  2. 能够指定索引中的字段
  3. 可自定义分词器
正文完
 0