共计 5668 个字符,预计需要花费 15 分钟才能阅读完成。
【百度云搜寻,搜各种材料:http://www.lqkweb.com】
【搜网盘,搜各种材料:http://www.swpan.cn】
1、elasticsearch(搜索引擎)的查问
elasticsearch 是性能十分弱小的搜索引擎,应用它的目标就是为了疾速的查问到须要的数据
查问分类:
根本查问:应用 elasticsearch 内置的查问条件进行查问
组合查问:把多个查问条件组合在一起进行复合查问
过滤:查问同时,通过 filter 条件在不影响打分的状况下筛选数据
2、elasticsearch(搜索引擎)创立数据
首先咱们先创立索引、表、以及字段属性、字段类型、增加好数据
留神:个别咱们中文应用 ik_max_word 中文分词解析器,所有在须要分词建设倒牌索引的字段都要指定,ik_max_word 中文分词解析器
零碎默认不是 ik_max_word 中文分词解析器
ik_max_word 中文分词解析器是 elasticsearch(搜索引擎)的一个插件,在 elasticsearch 装置目录的 plugins/analysis-ik 文件夹里,版本为 5.1.1
更多阐明:https://github.com/medcl/elas…
阐明:
# 创立索引(设置字段类型)
#留神:个别咱们中文应用 ik_max_word 中文分词解析器,所有在须要分词建设倒牌索引的字段都要指定,ik_max_word 中文分词解析器
#零碎默认不是 ik_max_word 中文分词解析器
PUT jobbole #创立索引设置索引名称
{
"mappings": { #设置 mappings 映射字段类型
"job": { #表名称
"properties": { #设置字段类型
"title":{ #表名称
"store": true, #字段属性 true 示意保留数据
"type": "text", #text 类型,text 类型能够分词,建设倒排索引
"analyzer": "ik_max_word" #设置分词解析器,ik_max_word 是一个中文分词解析器插件
},
"company_name":{ #字段名称
"store": true, #字段属性 true 示意保留数据
"type": "keyword" #keyword 一般字符串类型,不分词
},
"desc":{ #字段名称
"type": "text" #text 类型,text 类型能够分词,然而没有设置分词解析器,应用零碎默认
},
"comments":{ #字段名称
"type": "integer" #integer 数字类型
},
"add_time":{ #字段名称
"type": "date", #date 工夫类型
"format":"yyyy-MM-dd" #yyyy-MM-dd 工夫格式化
}
}
}
}
}
#保存文档(相当于数据库的写入数据)
POST jobbole/job
{
"title":"python django 开发工程师", #字段名称:值
"company_name":"美团科技有限公司", #字段名称:值
"desc":"对 django 的概念相熟,相熟 python 基础知识", #字段名称:值
"comments":20, #字段名称:值
"add_time":"2017-4-1" #字段名称:值
}
POST jobbole/job
{
"title":"python scrapy redis 分布式爬虫根底",
"company_name":"玉秀科技有限公司",
"desc":"对 scrapy 的概念相熟,相熟 redis 基础知识",
"comments":5,
"add_time":"2017-4-2"
}
POST jobbole/job
{
"title":"elasticsearch 打造搜索引擎",
"company_name":"通信科技有限公司",
"desc":"对 elasticsearch 的概念相熟",
"comments":10,
"add_time":"2017-4-3"
}
POST jobbole/job
{
"title":"pyhhon 打造举荐引擎零碎",
"company_name":"智能科技有限公司",
"desc":"相熟举荐引擎零碎算法",
"comments":60,
"add_time":"2017-4-4"
}
通过下面能够看到咱们创立了索引并且设置好了字段的属性、类型、以及分词解 析器,创立了 4 条数据
3、elasticsearch(搜索引擎)根本查问
match 查问【用的最多】
会将咱们的搜索词在以后字段设置的分词器进行分词,到以后字段查找,匹配度越高排名靠前,如果搜索词是大写字母会自 动转换成小写
#match 查问
#会将咱们的搜索词进行分词,到指定字段查找,匹配度越高排名靠前
GET jobbole/job/_search
{
"query": {
"match": {"title": "搜索引擎"}
}
}
term 查问
不会将咱们的搜索词进行分词,将搜索词齐全匹配的查问
term 查问
# 不会将咱们的搜索词进行分词,将搜索词齐全匹配的查问
GET jobbole/job/_search
{
"query": {
"term": {"title":"搜索引擎"}
}
}
terms 查问
传递一个数组,将数组里的词别离匹配
#terms 查问
#传递一个数组,将数组里的词别离匹配
GET jobbole/job/_search
{
"query": {
"terms": {"title":["工程师","django","零碎"]
}
}
}
管制查问的返回数量
from 从第几条数据开始
size 获取几条数据
# 管制查问的返回数量
#from 从第几条数据开始
#size 获取几条数据
GET jobbole/job/_search
{
"query": {
"match": {"title": "搜索引擎"}
},
"from": 0,
"size": 3
}
match_all 查问, 查问所有数据
#match_all 查问, 查问所有数据
GET jobbole/job/_search
{
"query": {"match_all": {}
}
}
match_phrase 查问
短语查问
短语查问,会将搜索词分词,放进一个列表如 [python, 开发]
而后搜寻的字段必须满足列表里的所有元素,才合乎
slop 是设置分词后[python, 开发]python 与 开发,之间隔着多少个字符算匹配
距离字符数小于 slop 设置算匹配到,距离字符数大于 slop 设置不匹配
#match_phrase 查问
#短语查问
#短语查问,会将搜索词分词,放进一个列表如[python, 开发]
#而后搜寻的字段必须满足列表里的所有元素,才合乎
#slop 是设置分词后[python, 开发]python 与 开发,之间隔着多少个字符算匹配
#距离字符数小于 slop 设置算匹配到,距离字符数大于 slop 设置不匹配
GET jobbole/job/_search
{
"query": {
"match_phrase": {
"title": {
"query": "elasticsearch 引擎",
"slop":3
}
}
}
}
multi_match 查问
比方能够指定多个字段
比方查问 title 字段和 desc 字段外面蕴含 python 的关键词数据
query 设置搜索词
fields 要搜寻的字段
title^3 示意权重,示意 title 里合乎的关键词权重,是其余字段里合乎的关键词权重的 3 倍
#multi_match 查问
#比方能够指定多个字段
#比方查问 title 字段和 desc 字段外面蕴含 python 的关键词数据
#query 设置搜索词
#fields 要搜寻的字段
#title^3 示意权重,示意 title 里合乎的关键词权重,是其余字段里合乎的关键词权重的 3 倍
GET jobbole/job/_search
{
"query": {
"multi_match": {
"query": "搜索引擎",
"fields": ["title^3","desc"]
}
}
}
stored_fields 设置搜寻后果只显示哪些字段
留神:应用 stored_fields 要显示的字段 store 属性必须为 true,如果要显示的字段没有设置 store 属性那么默认为 false,如果为 false 将不会显示该字段
#stored_fields 设置搜寻后果只显示哪些字段
GET jobbole/job/_search
{"stored_fields": ["title","company_name"],
"query": {
"multi_match": {
"query": "搜索引擎",
"fields": ["title^3","desc"]
}
}
}
通过 sort 搜寻后果排序
留神:排序的字段必须是数字或者日期
desc 升序
asc 降序
# 通过 sort 搜寻后果排序
#留神:排序的字段必须是数字或者日期
#desc 升序
#asc 降序
GET jobbole/job/_search
{
"query": {"match_all": {}
},
"sort": [{
"comments": {"order": "asc"}
}]
}
range 字段值范畴查问
查问一个字段的值范畴
留神:字段值必须是数字或者工夫
gte 大于等于
ge 大于
lte 小于等于
lt 小于
boost 是权重,能够给指定字段设置一个权重
#range 字段值范畴查问
#查问一个字段的值范畴
#留神:字段值必须是数字或者工夫
#gte 大于等于
#ge 大于
#lte 小于等于
#lt 小于
#boost 是权重,能够给指定字段设置一个权重
GET jobbole/job/_search
{
"query": {
"range": {
"comments": {
"gte": 10,
"lte": 20,
"boost": 2.0
}
}
}
}
range 字段值为工夫范畴查问
#range 字段值为工夫范畴查问
#查问一个字段的工夫值范畴
#留神:字段值必须是工夫
#gte 大于等于
#ge 大于
#lte 小于等于
#lt 小于
#now 为以后工夫
GET jobbole/job/_search
{
"query": {
"range": {
"add_time": {
"gte": "2017-4-1",
"lte": "now"
}
}
}
}
wildcard 查问,通配符查问
* 代表一个或者多个任意字符
#wildcard 查问,通配符查问
#* 代表一个或者多个任意字符
GET jobbole/job/_search
{
"query": {
"wildcard": {
"title": {
"value": "py*n",
"boost": 2
}
}
}
}
fuzzy 含糊查问
#fuzzy 含糊搜寻
#搜寻蕴含词的内容
GET lagou/biao/_search
{
"query": {"fuzzy": {"title": "广告"}
},
"_source": ["title"]
}
#fuzziness 设置编辑间隔, 编辑间隔就是把要查找的字段值,编辑成查找的关键词须要编辑多少个步骤(插入、删除、替换)#prefix_length 为关键词后面不参加变换的长度
GET lagou/biao/_search
{
"query": {
"fuzzy": {
"title": {
"value": "广告录音",
"fuzziness": 2,
"prefix_length": 2
}
}
},
"_source": ["title"]
}