共计 494 个字符,预计需要花费 2 分钟才能阅读完成。
倒排索引与正排索引
正排索引相似书的目录
- 由书的章节指向章节关键词
- es 中文档 id 对应的单词
倒排索引相似书的索引
- 由内容的关键词指向页数
- es 单词对应文档 id
倒排索引的应用
- 通过倒排索引获取关键词的文档 id
- 通过正排索引查出对应 id 文档
- 返回文档内容
倒排索引由 单词词典和倒排列表组成
单词词典 term dictionary
- 记录所有文档的单词
- 记录单词到倒排列表的关联信息
- 个别用 B + Tree 实现
倒排列表 posting list
- 记录了单词对应的文档汇合 由倒排索引项组成
- 倒排索引项包含:文档 Id 单词频率 地位 偏移
分词
- 指将文本转换成一系列单词的过程,也能够叫做文本剖析,在 es 中成为 Analysis。
分词器 es 中专门解决分词器的组件,英文为 Analyzer,组成如下 也是 analyzer 调用的程序
- character filter 针对原始文本进行解决 例如 去除 html 标记
- tokenizer 将原始文本依照肯定的会泽切分为单词
- token filter 针对 tokenizer 解决的单词再加工 例如 转小写等
analyzer api
es 提供测试分词的 api 接口,_analyzer
- 能够间接指定 analyzer
- 能够指定索引中的字段
- 可自定义分词器
正文完