关于后端:es笔记六之聚合操作之指标聚合

本文首发于公众号：Hunter 后端
原文链接：es 笔记六之聚合操作之指标聚合

聚合操作，在 es 中的聚合能够分为大略四种聚合：

bucketing(桶聚合)
mertic(指标聚合)
matrix(矩阵聚合)
pipeline(管道聚合)

bucket
相似于分类分组，依照某个 key 将符合条件的数据都放到该类别的组中

mertic
计算一组文档的相干值，比方最大，最小值

matrix
依据多个 key 从文档中提取值生成矩阵，这个操作不反对脚本（script）

pipeline
将其余聚合的后果再次聚合输入

聚合是反对套娃（嵌套）操作的，你能够在聚合的后果上接着进行聚合操作，es 是不限度聚合的深度的。

本篇笔记目录如下：

指标聚合的根本构造
平均值聚合
去重统计
聚合统计汇总
最大值、最小值聚合
百分位统计
百分位排名
字符串统计聚合
sum 统计总和操作
count 统计总数操作
top hit 操作

指标聚合操作的根本构造大抵如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "aggregation_name": {
      "agg_name": {"field": "field_name"}
    }
  }
}

其中，aggregation_name 为聚合返回后果的名称，由咱们本人定义，agg_name 为聚合的参数，比方最大值最小值，平均值等，这个咱们在上面介绍。

指标聚合

指标聚合是从文档中提取字段值进去进行计算得出后果，比方最大最小平均值等。

接下来将具体介绍各种指标聚合操作。

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "avg_balance": {
      "avg": {"field": "balance"}
    }
  }
}

其中，最外层的 aggs 示意是聚合操作，avg_balance 是聚合的名称，avg 则示意是平均值聚合，外面的 field 示意聚合的字段是 balance 字段

在这里，如果不增加 size=0，除了会返回咱们的聚合后果，还会返回聚合的源数据。

这个操作咱们返回的后果如下：

{
  "took" : 1,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : {
      "value" : 1000,
      "relation" : "eq"
    },
    "max_score" : null,
    "hits" : []},
  "aggregations" : {
    "avg_balance" : {"value" : 25714.837}
  }
}

咱们聚合的后果在 aggregations 这个 key 下。

脚本执行

脚本执行的形式如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "avg_balance": {
      "avg": {"script": {"source": "doc.balance.value"}
      }
    }
  }
}

对后果解决

假如，咱们须要对这个平均值后果进行解决，比方咱们计算出来的这个值是 2000，咱们想要对这个值进行修改，比方乘以 1.2。

当然，这个乘的操作咱们能够获取数据之后在零碎里进行操作，如果是间接在 es 的解决中，咱们能够如下实现：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "avg_corrected_balance": {
      "avg": {
        "field": "balance", 
        "script": {
          "lang": "painless",
          "source": "_value * params.correction",
          "params": {"correction": 1.2}
          
        }
      }
    },
    "avg_balance": {
      "avg": {"script": {"source": "doc.balance.value"}
      }
    }
  }
}

在下面的语句中，咱们新增了一个 params 字段，定义了一个 correction 的值，而后返回的后果乘以了这个值。

在这里，我额定加了一个 avg_balance，是间接用的平均值聚合后果，次要是用来比照这两个后果。

缺失值补充

有一些状况，咱们在导入数据的时候，可能某条数据的某个字段是没有值的，默认状况下他们是会被疏忽的，不计入计算的，然而如果想要为其加一个默认值也是能够实现的，这里咱们用到 missing 这个参数来定义：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "avg_balance": {
      "avg": {
        "field": "balance",
        "missing": 0
      }
    }
  }
}

是对某个字段进行去重后统计总数，操作如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_count": {
      "cardinality": {"field": "age"}
    }
  }
}

须要留神的是，这个统计对于 text 字段属性是不失效的

有一个聚合统计汇总的参数 stats，能够将个别的聚合值进行汇总后返回，比方总数，最大值，最小值等，应用如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_stats": {
      "stats": {"field": "age"}
    }
  }
}

能够看到返回的值如下：

{
 ...
 "aggregations" : {
    "age_stats" : {
      "count" : 1000,
      "min" : 20.0,
      "max" : 40.0,
      "avg" : 30.171,
      "sum" : 30171.0
    }
  }
}

如果还想取得方差，标准差等数据，能够应用这个参数的扩大版 extended_stats，替换聚合的参数 stats 即可。

最大值最小值的关键字是 max 和 min，应用示例如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "max_age": {"max": {"field": "age"}
    },
    "min_age": {"min": {"field": "age"}
    }
  }
}

应用脚本的形式来实现：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "max_age": {"max": {"script": {"source": "doc.age.value"}}
    }
  }
}

应用 es 进行百分位的统计，用到的关键字是 percentiles

应用示例如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_percentiles": {
      "percentiles": {"field": "age"}
    }
  }
}

会输入 [1, 5, 25, 75, 95, 99] 的统计数：

{
  ...
  "aggregations" : {
    "age_percentiles" : {
      "values" : {
        "1.0" : 20.0,
        "5.0" : 21.0,
        "25.0" : 25.0,
        "50.0" : 30.8,
        "75.0" : 35.0,
        "95.0" : 39.0,
        "99.0" : 40.0
      }
    }
  }
}

咱们也能够指定统计的百分位的数列表，比方咱们只想晓得 [75, 98, 99, 99.9] 的数据：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_percentiles": {
      "percentiles": {
        "field": "age",
        "percents": [75, 98, 99, 99.9]
      }
    }
  }
}

咱们间接应用是返回的百分位 - 数据的格局，咱们也能够应用 {‘key’: xx, ‘value’: xx} 来返回一个列表，加上一个参数 keyed=false 即可

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_percentiles": {
      "percentiles": {
        "field": "age",
        "keyed": false
      }
    }
  }
}

返回的后果示例如下：

    "age_percentiles" : {
      "values" : [
         ...
        {
          "key" : 75.0,
          "value" : 35.0
        },
        {
          "key" : 95.0,
          "value" : 39.0
        },
        {
          "key" : 99.0,
          "value" : 40.0
        }
      ]
    }
  }
}

这个是和后面的百分位统计相同的操作。

后面是依据百分位获取该百分位值，这个参数的作用是依据数据获取在零碎中的百分位，应用示例如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_ranks": {
      "percentile_ranks": {
        "field": "age",
        "values": [
          30,
          35,
          40
        ]
      }
    }
  }
}

对于字符串类型的数据，有一个专门的参数来获取相应的聚合统计值，为 string_stats

对 lastname 字段的统计示例如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "last_name_stats": {"string_stats": {"field": "lastname.keyword"}
    }
  }
}

须要留神，如果咱们须要进行统计的字段如果是 text 字段，那么就须要加上 .keyword 来进行统计，如果是字段属性是 keyword，就不须要这样解决。

通过统计返回的数据如下：

  ... 
  "aggregations" : {
    "last_name_stats" : {
      "count" : 1000,
      "min_length" : 2,
      "max_length" : 11,
      "avg_length" : 6.122,
      "entropy" : 4.726472133462717
    }
  }
}

以上信息包含数据总数，lastname 字段最长和最短长度，均匀长度和熵值

比方咱们须要对 bank 这个数据库的 age 字段进行 sum 的操作，能够如下操作：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_sum": {"sum": {"field": "age"}
    }
  }
}

在后面的每一个聚合操作里，都能够进行 query 的条件筛选，比方获取 age=21 的数据的 sum 值：

GET /bank/_search
{
  "size": 0,
  "query": {"match": {"age": "21"}}, 
  "aggs": {
    "age_sum": {"sum": {"field": "age"}
    }
  }
}

count 是统计总数，应用示例如下：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "age_count": {
      "value_count": {"field": "age"}
    }
  }
}

top hit 操作是依据条件返回符合条件的前几条数据，通过 size 管制返回的数量。

咱们先来看下上面的这个操作：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "top_ages": {
      "terms": {
        "field": "age",
        "size": 30
      }
    }
  }
}

这个操作其实就是一个桶聚合，它会在下一篇笔记中介绍，这里咱们间接用一下，它返回字段为 age，以及它在文档中的数量：

  ...
  "aggregations" : {
    "top_ages" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : 31,
          "doc_count" : 61
        },
        {
          "key" : 39,
          "doc_count" : 60
        },
        {
          "key" : 26,
          "doc_count" : 59
        },
        ...

top_hits 的操作是在第一个 aggs 聚合操作条件下，进行再次聚合。

比方咱们想要获取各个 age 的数据中，依照 balance 字段进行倒序排序的前三个，咱们能够如下操作：

GET /bank/_search
{
  "size": 0,
  "aggs": {
    "top_ages": {
      "terms": {
        "field": "age",
        "size": 30
      },
      "aggs": {
        "top_balance_hits": {
          "top_hits": {
            "size": 3,
            "sort": [{"balance": {"order": "desc"}}]
          }
        }
      }
    }
  }
}

而后在第一次聚合返回的后果中，就会多一个 top_balance_hits 字段，也就是咱们在查问操作中指定的，其下会有三条依照 balance 字段倒序返回的数据：

  ...
  "aggregations" : {
    "top_ages" : {
      "doc_count_error_upper_bound" : 0,
      "sum_other_doc_count" : 0,
      "buckets" : [
        {
          "key" : 31,
          "doc_count" : 61,
          "top_balance_hits" : {
            "hits" : {
              "total" : {
                "value" : 61,
                "relation" : "eq"
              },
              "max_score" : null,
              "hits" : [...]
        },
        {
          "key" : 39,
          "doc_count" : 60,
          ...
        },
        {
          "key" : 26,
          "doc_count" : 59,
          ...
        },
        ...

如果想获取更多后端相干文章，可扫码关注浏览：

关于后端:es笔记六之聚合操作之指标聚合

1、指标聚合的根本构造

2、平均值聚合

3、去重统计

4、聚合统计汇总

5、最大值、最小值聚合

6、百分位统计

7、百分位排名

8、字符串统计聚合

9、sum 统计总和操作

10、count 统计总数操作

11、top hit 操作