关于聚合:Elasticsearch查询及聚合类DSL语句宝典

作者:京东科技 纪海雨

前言

随着应用es场景的增多,工作当中防止不了去应用es进行数据的存储,在数据存储到es当中当前就须要应用DSL语句进行数据的查问、聚合等操作,DSL对SE的意义就像SQL对MySQL一样,学会如何编写查问语句决定了前期是否能齐全驾驭ES,所以至关重要,本专题次要是分享罕用的DSL语句,拿来即用。

一、match

如果match 查问数字,日期,布尔值或者not_analyzed 的字符串时,会准确匹配搜寻值,不做分词解析;如果match 查问全文本,会对查问词做分词解析,而后搜寻。

比方对keyword 类型的tag 查问,”京东总部”不会分词,必须齐全相等的词才会被搜寻进去

{a
  "query": {
    "match": {
        "content" : {
            "tag" : "京东总部"
        }
    }
  }
}

比方”宝马多少马力”会被分词为”宝马 多少 马力”, 所有无关”宝马 多少 马力”, 那么所有蕴含这三个词中的一个或多个的文档就会被搜寻进去。并且依据lucene的评分机制(TF/IDF)来进行评分

{
  "query": {
    "match": {
        "content" : {
            "query" : "宝马多少马力"
        }
    }
  }
}

二、match_phrase

如果想要准确匹配所有同时蕴含”宝马 多少 马力”的文档,就要应用 match_phrase 了

{
  "query": {
    "match_phrase": {
        "content" : {
            "query" : "宝马多少马力"
        }
    }
  }
}

三、mult_match

如果咱们心愿两个字段进行匹配,其中一个字段有这个文档就满足的话,应用multi_match

{
  "query": {
    "multi_match": {
        "query" : "我的宝马多少马力",
        "fields" : ["title", "content"]
    }
  }
}

四、term

关键字准确匹配,不分词解析。留神 term 蕴含(contains) 操作,而非 等值(equals)判断。如果文档蕴含full_text 及其他词,也会命中返回。

应用term要确定的是这个字段是否“被剖析”(analyzed),默认的字符串是被剖析的。

比方上面的例子,其中的full_text是被剖析过的,所以full_text的索引中存的就是[quick, foxes],而extra_value中存的是[Quick Foxes!]

PUT my_index
{
  "mappings": {
    "my_type": {
      "properties": {
        "full_text": {
          "type":  "string"
        },
        "exact_value": {
          "type":  "string",
          "index": "not_analyzed"
        }
      }
    }
  }
}

PUT my_index/my_type/1
{
  "full_text":   "Quick Foxes!",
  "exact_value": "Quick Foxes!"  
}

申请不出数据的,因为full_text分词后的后果中没有[Quick Foxes!]这个分词

GET my_index/my_type/_search
{
  "query": {
    "term": {
      "full_text": "Quick Foxes!"
    }
  }
}

五、terms

指定多值准确匹配,如果字段蕴含了指定值中的任何一个值,那么文档满足条件。相似sql中的in

{
    "terms": {
        "tag": [
            "search",
            "full_text",
            "nosql"
        ]
    }
}

六、range

数字/工夫的区间查问,操作符:

gt > greater than

gte >=

lt < litter than

lte <=

{
  "query":{
    "range": {
        "age": {
            "gte":  20,
            "lt":   30
        }
    }
  }
}

七、wildcard

通配符索引。* 示意全匹配,? 示意繁多匹配。扫描所有倒排索引,性能较差

{ 
  "query": { 
    "wildcard": { 
      "companyName": "*京东*" 
    } 
  } 
}

八、regexp

正则索引。扫描所有倒排索引,性能较差

{ 
    "query": { 
        "regexp": { 
            "postcode": "W[0-9].+" 
        } 
    } 
}

九、组合多查问(bool查问)

bool 查问前面能够跟这四种匹配模式

•must 必须匹配

•must_not 必须不匹配

•should 匹配任意,等价or

•filter 必须匹配:过滤模式

比方咱们想要申请”content 中带宝马,然而tag 中不带宝马”这样相似的需要,就须要用到bool 联结查问。

{
    "query":{
        "bool":{
            "must":{
                "term":{
                    "content":"宝马"
                }
            },
            "must_not":{
                "term":{
                    "tags":"宝马"
                }
            }
        }
    }
}

十、聚合

聚合蕴含一下两种:

1、 指标聚合(Metric Aggregation):一些数学运算,能够对文档字段进行统计分析

•输入一个值

▪min

▪max

▪sum

▪avg

▪ value_count 统计某字段有值的文档数

▪ cardinality 某字段值去重计数

•输入多个值

▪stats

▪percentiles

▪percentile_ranks

2、桶聚合(Bucket Aggregation) :一些列满足特定条件的文档的汇合,相当于sql 的groupby

•terms 对某个字段统计每个不同的内容,以及呈现文档的个数

•range 某个范畴内文档的个数

默认聚合范畴是全文,然而如果有query查问,那么聚合的范畴就是query查问的后果。

value_count 统计某字段有值的文档数

{
  "size": 0, 
  "aggs": {
    "count": {
      "value_count": {
        "field": "companyName"
      }
    }
  }
}

指定查问语句进行统计

{
  "query": {
    "term": {
      "companyName": "安徽科达智慧能源科技有限公司"
    }
  },
  "aggs": {
    "count": {   //自定义名称
      "terms": {
        "field": "companyName"
      }
    }
  }
}



以上就是本期分享的DSL语句,小伙伴们联合本人的应用查问场景进行操练起来吧。

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

这个站点使用 Akismet 来减少垃圾评论。了解你的评论数据如何被处理