作者:京东科技 纪海雨
前言
随着应用 es 场景的增多,工作当中防止不了去应用 es 进行数据的存储,在数据存储到 es 当中当前就须要应用 DSL 语句进行数据的查问、聚合等操作,DSL 对 SE 的意义就像 SQL 对 MySQL 一样,学会如何编写查问语句决定了前期是否能齐全驾驭 ES,所以至关重要,本专题次要是分享罕用的 DSL 语句,拿来即用。
一、match
如果 match 查问数字,日期,布尔值或者 not_analyzed 的字符串时,会准确匹配搜寻值,不做分词解析;如果 match 查问全文本,会对查问词做分词解析,而后搜寻。
比方对 keyword 类型的 tag 查问,” 京东总部 ” 不会分词,必须齐全相等的词才会被搜寻进去
{a
"query": {
"match": {
"content" : {"tag" : "京东总部"}
}
}
}
比方 ” 宝马多少马力 ” 会被分词为 ” 宝马 多少 马力 ”, 所有无关 ” 宝马 多少 马力 ”, 那么所有蕴含这三个词中的一个或多个的文档就会被搜寻进去。并且依据 lucene 的评分机制 (TF/IDF) 来进行评分
{
"query": {
"match": {
"content" : {"query" : "宝马多少马力"}
}
}
}
二、match_phrase
如果想要准确匹配所有同时蕴含 ” 宝马 多少 马力 ” 的文档,就要应用 match_phrase 了
{
"query": {
"match_phrase": {
"content" : {"query" : "宝马多少马力"}
}
}
}
三、mult_match
如果咱们心愿两个字段进行匹配,其中一个字段有这个文档就满足的话,应用 multi_match
{
"query": {
"multi_match": {
"query" : "我的宝马多少马力",
"fields" : ["title", "content"]
}
}
}
四、term
关键字准确匹配,不分词解析。留神 term 蕴含(contains)操作,而非 等值(equals)判断。如果文档蕴含 full_text 及其他词,也会命中返回。
应用 term 要确定的是这个字段是否“被剖析”(analyzed),默认的字符串是被剖析的。
比方上面的例子,其中的 full_text 是被剖析过的,所以 full_text 的索引中存的就是[quick, foxes],而 extra_value 中存的是[Quick Foxes!]
PUT my_index
{
"mappings": {
"my_type": {
"properties": {
"full_text": {"type": "string"},
"exact_value": {
"type": "string",
"index": "not_analyzed"
}
}
}
}
}
PUT my_index/my_type/1
{
"full_text": "Quick Foxes!",
"exact_value": "Quick Foxes!"
}
申请不出数据的,因为 full_text 分词后的后果中没有 [Quick Foxes!] 这个分词
GET my_index/my_type/_search
{
"query": {
"term": {"full_text": "Quick Foxes!"}
}
}
五、terms
指定多值准确匹配,如果字段蕴含了指定值中的任何一个值,那么文档满足条件。相似 sql 中的 in
{
"terms": {
"tag": [
"search",
"full_text",
"nosql"
]
}
}
六、range
数字 / 工夫的区间查问,操作符:
•gt > greater than
•gte >=
•lt < litter than
•lte <=
{
"query":{
"range": {
"age": {
"gte": 20,
"lt": 30
}
}
}
}
七、wildcard
通配符索引。* 示意全匹配,?示意繁多匹配。扫描所有倒排索引,性能较差
{
"query": {
"wildcard": {"companyName": "* 京东 *"}
}
}
八、regexp
正则索引。扫描所有倒排索引,性能较差
{
"query": {
"regexp": {"postcode": "W[0-9].+"
}
}
}
九、组合多查问(bool 查问)
bool 查问前面能够跟这四种匹配模式
•must 必须匹配
•must_not 必须不匹配
•should 匹配任意,等价 or
•filter 必须匹配:过滤模式
比方咱们想要申请 ”content 中带宝马,然而 tag 中不带宝马 ” 这样相似的需要,就须要用到 bool 联结查问。
{
"query":{
"bool":{
"must":{
"term":{"content":"宝马"}
},
"must_not":{
"term":{"tags":"宝马"}
}
}
}
}
十、聚合
聚合蕴含一下两种:
1、指标聚合(Metric Aggregation):一些数学运算,能够对文档字段进行统计分析
•输入一个值
▪min
▪max
▪sum
▪avg
▪ value_count 统计某字段有值的文档数
▪ cardinality 某字段值去重计数
•输入多个值
▪stats
▪percentiles
▪percentile_ranks
2、桶聚合(Bucket Aggregation):一些列满足特定条件的文档的汇合,相当于 sql 的 groupby
•terms 对某个字段统计每个不同的内容,以及呈现文档的个数
•range 某个范畴内文档的个数
默认聚合范畴是全文,然而如果有 query 查问,那么聚合的范畴就是 query 查问的后果。
value_count 统计某字段有值的文档数
{
"size": 0,
"aggs": {
"count": {
"value_count": {"field": "companyName"}
}
}
}
指定查问语句进行统计
{
"query": {
"term": {"companyName": "安徽科达智慧能源科技有限公司"}
},
"aggs": {
"count": { // 自定义名称
"terms": {"field": "companyName"}
}
}
}