MongoDB聚合查问

什么是聚合查问

聚合操作次要用于解决数据并返回计算结果。聚合操作将来自多个文档的值组合在一起,按条件分组后,再进行一系列操作(如求和、平均值、最大值、最小值)以返回单个后果。

MongoDB的聚合查问

聚合是MongoDB的高级查询语言,它容许咱们通过转化合并由多个文档的数据来生成新的在单个文档里不存在的文档信息。MongoDB中聚合(aggregate)次要用于解决数据(例如分组统计平均值、求和、最大值等),并返回计算后的数据后果,有点相似sql语句中的 count(*)、group by。

在MongoDB中,有两种形式计算聚合:Pipeline 和 MapReduce。Pipeline查问速度快于MapReduce,然而MapReduce的弱小之处在于可能在多台Server上并行执行简单的聚合逻辑。MongoDB不容许Pipeline的单个聚合操作占用过多的零碎内存。

聚合管道办法

MongoDB 的聚合框架就是将文档输出解决管道,在管道内实现对文档的操作,最终将文档转换为聚合后果,MongoDB的聚合管道将MongoDB文档在一个管道处理完毕后将后果传递给下一个管道解决,管道操作是能够反复的。

最根本的管道阶段提供过滤器,其操作相似查问和文档转换,能够批改输入文档的模式。其余管道操作提供了按特定字段对文档进行分组和排序的工具,以及用于聚合数组内容(包含文档数组)的工具。

此外,在管道阶段还能够应用运算符来执行诸如计算平均值或连贯字符串之类的工作。聚合管道能够在分片汇合上运行。

聚合流程

db.collection.aggregate()是基于数据处理的聚合管道,每个文档通过一个由多个阶段(stage)组成的管道,能够对每个阶段的管道进行分组、过滤等性能,而后通过一系列的解决,输入相应的后果。

聚合管道办法的流程参见下图

上图的聚合操作相当于 MySQL 中的以下语句:
select cust_id as _id, sum(amount) as total from orders where status like "%A%" group by cust_id;
具体流程
  1. db.collection.aggregate() 能够用多个构件创立一个管道,对于一连串的文档进行解决。这些构件包含:筛选操作的match、映射操作的project、分组操作的group、排序操作的sort、限度操作的limit、和跳过操作的skip
  2. db.collection.aggregate()应用了MongoDB内置的原生操作,聚合效率十分高,反对相似于SQL Group By操作的性能,而不再须要用户编写自定义的JavaScript例程。
  3. 每个阶段管道限度为100MB的内存。如果一个节点管道超过这个极限,MongoDB将产生一个谬误。为了可能在解决大型数据集,能够设置allowDiskUsetrue来在聚合管道节点把数据写入临时文件。这样就能够解决100MB的内存的限度。
  4. db.collection.aggregate()能够作用在分片汇合,但后果不能输在分片汇合,MapReduce能够 作用在分片汇合,后果也能够输在分片汇合。
  5. db.collection.aggregate()办法能够返回一个指针(cursor),数据放在内存中,间接操作。跟Mongo shell 一样指针操作。
  6. db.collection.aggregate()输入的后果只能保留在一个文档中,BSON Document大小限度为16M。能够通过返回指针解决,版本2.6中:DB.collect.aggregate()办法返回一个指针,能够返回任何后果集的大小。

聚合语法

db.collection.aggregate(pipeline, options)
参数阐明
参数类型形容
pipelinearray一系列数据聚合操作或阶段。详见聚合管道操作符 在版本2.6中更改:该办法依然能够将流水线阶段作为独自的参数承受,而不是作为数组中的元素;然而,如果不将管道指定为数组,则不能指定options参数
optionsdocument可选。 aggregate()传递给聚合命令的其余选项。 2.6版中的新增性能:仅当将管道指定为数组时才可用。
注意事项

应用db.collection.aggregate()间接查问会提醒谬误,然而传一个空数组如db.collection.aggregate([])则不会报错,且会和find一样返回所有文档。

罕用聚合管道

与mysql聚合类比
为了便于了解,先将常见的mongo的聚合操作和mysql的查问做下类比
SQL 操作/函数mongodb聚合操作
where$match
group by$group
having$match
select$project
order by$sort
limit$limit
sum()$sum
count()$sum
join$lookup
$count
返回蕴含输出到stage的文档的计数,了解为返回与表或视图的find()查问匹配的文档的计数。db.collection.count()办法不执行find()操作,而是计数并返回与查问匹配的后果数。
语法
{ $count: <string> }
$count阶段相当于上面$group+$project的序列:
db.collection.aggregate([    {        "$group": {            "_id": null,            "count": {// 这里count自定义,相当于mysql的select count(*) as tables                "$sum": 1            }        }    },    {        "$project": {// 返回不显示_id字段            "_id": 0        }    }])
示例
查问人数是100000以上的城市的数量
  • $match:阶段排除pop小于等于100000的文档,将大于100000的文档传到下个阶段
  • $count:阶段返回聚合管道中残余文档的计数,并将该值调配给名为count的字段。
db.zips.aggregate([    {        "$match": {            "pop": {                "$gt": 100000            }        }    },    {        "$count": "count"    }])

$group
按指定的表达式对文档进行分组,并将每个不同分组的文档输入到下一个阶段。输入文档蕴含一个_id字段,该字段按键蕴含不同的组。

输入文档还能够蕴含计算字段,该字段保留由$group的_id字段分组的一些accumulator表达式的值。 $group不会输入具体的文档而只是统计信息。

语法
{ $group: { _id: <expression>, <field1>: { <accumulator1> : <expression1> }, ... } }
  • _id字段是必填的;然而,能够指定_id值为null来为整个输出文档计算累计值。
  • 残余的计算字段是可选的,并应用<accumulator>运算符进行计算。
  • _id<accumulator>表达式能够承受任何无效的表达式。
accumulator操作符
名称形容类比sql
$avg计算均值avg
$first返回每组第一个文档,如果有排序,依照排序,如果没有依照默认的存储的程序返回第一个文档。limit 0,1
$last返回每组最初一个文档,如果有排序,依照排序,如果没有依照默认的存储的程序返回最初一个文档。-
$max依据分组,获取汇合中所有文档对应值的最大值。max
$min依据分组,获取汇合中所有文档对应值的最小值。min
$push将指定的表达式的值增加到一个数组中。-
$addToSet将表达式的值增加到一个汇合中(无反复值,无序)。-
$sum计算总和sum
$stdDevPop返回输出值的总体标准偏差(population standard deviation)-
$stdDevSamp返回输出值的样本标准偏差(the sample standard deviation)-
$group阶段的内存限度为100M,默认状况下,如果stage超过此限度,$group将产生谬误,然而,要容许解决大型数据集,请将allowDiskUse选项设置为true以启用$group操作以写入临时文件。

留神:

  • "$addToSet":expr,如果以后数组中不蕴含expr,那就将它增加到数组中。
  • "$push":expr,不论expr是什么值,都将它增加到数组中,返回蕴含所有值的数组。
示例
依照state分组,并计算每一个state分组的总人数,均匀人数以及每个分组的数量
db.zips.aggregate([    {        "$group": {            "_id": "$state",            "totalPop": {                "$sum": "$pop"            },            "avglPop": {                "$avg": "$pop"            },            "count": {                "$sum": 1            }        }    }])

查找不反复的所有的state的值
db.zips.aggregate([    {        "$group": {            "_id": "$state"        }    }])

依照city分组,并且分组内的state字段列表退出到stateItem并显示
db.zips.aggregate([    {        "$group": {            "_id": "$city",            "stateItem": {                "$push": "$state"            }        }    }])

上面聚合操作应用零碎变量$$ROOT按item对文档进行分组,生成的文档不得超过BSON文档大小限度
db.zips.aggregate([    {        "$group": {            "_id": "$city",            "item": {                "$push": "$$ROOT"            }        }    }]).pretty();

$match

过滤文档,仅将合乎指定条件的文档传递到下一个管道阶段。

$match承受一个指定查问条件的文档,查问语法与读操作查问语法雷同。

语法
{ $match: { <query> } }
管道优化

$match用于对文档进行筛选,之后能够在失去的文档子集上做聚合,$match能够应用除了天文空间之外的所有惯例查问操作符,在理论利用中尽可能将$match放在管道的后面地位。这样有两个益处:

  • 一是能够疾速将不须要的文档过滤掉,以缩小管道的工作量
  • 二是如果再投射和分组之前执行$match,查问能够应用索引
应用限度
  • 不能在$match查问中应用$作为聚合管道的一部分。
  • 要在$match阶段应用$text$match阶段必须是管道的第一阶段。
  • 视图不反对文本搜寻。
示例
应用 $match做简略的匹配查问,查问缩写是NY的城市数据
db.zips.aggregate([    {        "$match": {            "state": "NY"        }    }]).pretty();

应用$match管道抉择要解决的文档,而后将后果输入到$group管道以计算文档的计数
db.zips.aggregate([    {        "$match": {            "state": "NY"        }    },    {        "$group": {            "_id": null,            "sum": {                "$sum": "$pop"            },            "avg": {                "$avg": "$pop"            },            "count": {                "$sum": 1            }        }    }]).pretty();

$unwind
从输出文档解构数组字段以输入每个元素的文档,简略说就是 能够将数组拆分为独自的文档。
语法
要指定字段门路,在字段名称前加上$符并用引号括起来。
{ $unwind: <field path> }
v3.2+反对如下语法
{  $unwind:    {      path: <field path>,      #可选,一个新字段的名称用于寄存元素的数组索引。该名称不能以$结尾。      includeArrayIndex: <string>,       #可选,default :false,若为true,如果门路为空,短少或为空数组,则$unwind输入文档      preserveNullAndEmptyArrays: <boolean>      }  }

如果为输出文档中不存在的字段指定门路,或者该字段为空数组,则$unwind默认会疏忽输出文档,并且不会输入该输出文档的文档。

版本3.2中的新性能:要输入数组字段失落的文档,null或空数组,请应用选项preserveNullAndEmptyArrays。

示例
以下聚合应用$unwind为loc数组中的每个元素输入一个文档:
db.zips.aggregate([    {        "$match": {            "_id": "01002"        }    },    {        "$unwind": "$loc"    }]).pretty();

$project
$project能够从文档中抉择想要的字段,和不想要的字段(指定的字段能够是来自输出文档或新计算字段的现有字段),也能够通过管道表达式进行一些简单的操作,例如数学操作,日期操作,字符串操作,逻辑操作。
语法
$project 管道符的作用是抉择字段(指定字段,增加字段,不显示字段,_id:0,排除字段等),重命名字段,派生字段。
{ $project: { <specification(s)> } }
specifications有以下模式:

<field>: <1 or true> 是否蕴含该字段,field:1/0,示意抉择/不抉择 field

_id: <0 or false> 是否指定_id字段

<field>: <expression> 增加新字段或重置现有字段的值。 在版本3.6中更改:MongoDB 3.6增加变量REMOVE。如果表达式的计算结果为$$REMOVE,则该字段将排除在输入中。

<field>:<0 or false> v3.4新增性能,指定排除字段

  • 默认状况下,_id字段蕴含在输入文档中。要在输入文档中蕴含输出文档中的任何其余字段,必须明确指定$project中的蕴含。 如果指定蕴含文档中不存在的字段,$project将疏忽该字段蕴含,并且不会将该字段增加到文档中。
  • 默认状况下,_id字段蕴含在输入文档中。要从输入文档中排除_id字段,必须明确指定$project中的_id字段为0。
  • v3.4版新增性能-如果指定排除一个或多个字段,则所有其余字段将在输入文档中返回。 如果指定排除_id以外的字段,则不能应用任何其余$project标准表单:即,如果排除字段,则不能指定蕴含字段,重置现有字段的值或增加新字段。此限度不适用于应用REMOVE变量条件排除字段。
  • v3.6版本中的新性能- 从MongoDB 3.6开始,能够在聚合表达式中应用变量REMOVE来有条件地禁止一个字段。
  • 要增加新字段或重置现有字段的值,请指定字段名称并将其值设置为某个表达式。
  • 要将字段值间接设置为数字或布尔文本,而不是将字段设置为解析为文字的表达式,请应用$literal操作符。否则,$project会将数字或布尔文字视为蕴含或排除该字段的标记。
  • 通过指定新字段并将其值设置为现有字段的字段门路,能够无效地重命名字段。
  • 从MongoDB 3.2开始,$project阶段反对应用方括号[]间接创立新的数组字段。如果数组标准蕴含文档中不存在的字段,则该操作会将空值替换为该字段的值。
  • 在版本3.4中更改-如果$project 是一个空文档,MongoDB 3.4和更高版本会产生一个谬误。
  • 投影或增加/重置嵌入文档中的字段时,能够应用点符号
示例
以下$project阶段的输入文档中只蕴含_id,city和state字段
db.zips.aggregate([    {        "$project": {            "_id": 1,            "city": 1,            "state": 1        }    }]).pretty();

_id字段默认蕴含在内。要从$ project阶段的输入文档中排除_id字段,请在project文档中将_id字段设置为0来指定排除_id字段。
db.zips.aggregate([    {        "$project": {            "_id": 0,            "city": 1,            "state": 1        }    }]).pretty();

以下$ project阶段从输入中排除loc字段
db.zips.aggregate([    {        "$project": {            "loc": 0        }    }]).pretty();

能够在聚合表达式中应用变量REMOVE来有条件地禁止一个字段,
db.zips.aggregate([    {        "$project": {            "_id": 1,            "city": 1,            "state": 1,            "pop": 1,            "loc": {                "$cond": {                    "if": {                        "$gt": [                            "$pop",                            1000                        ]                    },                    "then": "$$REMOVE",                    "else": "$loc"                }            }        }    }]).pretty();

咱们还能够扭转数据,将人数大于1000的城市坐标重置为0
db.zips.aggregate([    {        "$project": {            "_id": 1,            "city": 1,            "state": 1,            "pop": 1,            "loc": {                "$cond": {                    "if": {                        "$gt": [                            "$pop",                            1000                        ]                    },                    "then": [                        0,                        0                    ],                    "else": "$loc"                }            }        }    }]).pretty();

新增字段列
db.zips.aggregate([    {        "$project": {            "_id": 1,            "city": 1,            "state": 1,            "pop": 1,            "desc": {                "$cond": {                    "if": {                        "$gt": [                            "$pop",                            1000                        ]                    },                    "then": "人数过多",                    "else": "人数过少"                }            },            "loc": {                "$cond": {                    "if": {                        "$gt": [                            "$pop",                            1000                        ]                    },                    "then": [                        0,                        0                    ],                    "else": "$loc"                }            }        }    }]).pretty();

$limit
限度传递到管道中下一阶段的文档数
语法
{ $limit: <positive integer> }
示例,此操作仅返回管道传递给它的前5个文档。 $limit对其传递的文档内容没有影响。
db.zips.aggregate({    "$limit": 5});
留神

当$sort在管道中的$limit之前立刻呈现时,$sort操作只会在过程中维持前n个后果,其中n是指定的限度,而MongoDB只须要将n个项存储在内存中。当allowDiskUse为true并且n个我的项目超过聚合内存限度时,此优化依然实用。

$skip
跳过进入stage的指定数量的文档,并将其余文档传递到管道中的下一个阶段
语法
{ $skip: <positive integer> }
示例,此操作将跳过管道传递给它的前5个文档, $skip对沿着管道传递的文档的内容没有影响。
db.zips.aggregate({    "$skip": 5});
$sort
对所有输出文档进行排序,并按排序程序将它们返回到管道。
语法
{ $sort: { <field1>: <sort order>, <field2>: <sort order> ... } }
$sort指定要排序的字段和相应的排序程序的文档。 <sort order>能够具备以下值之一:
  • 1指定升序。
  • -1指定降序。
  • {$meta:“textScore”}依照降序排列计算出的textScore元数据。
示例
要对字段进行排序,请将排序程序设置为1或-1,以别离指定升序或降序排序,如下例所示:
db.zips.aggregate([    {        "$sort": {            "pop": -1,            "city": 1        }    }])

$sortByCount
依据指定表达式的值对传入文档分组,而后计算每个不同组中文档的数量。每个输入文档都蕴含两个字段:蕴含不同分组值的_id字段和蕴含属于该分组或类别的文档数的计数字段,文件按降序排列。
语法
{ $sortByCount:  <expression> }

应用示例

上面举了一些罕用的mongo聚合例子和mysql比照,假如有一条如下的数据库记录(表名:zips)作为例子:
统计所有数据
SQL的语法格局如下
select count(1) from zips;
mongoDB的语法格局
db.zips.aggregate([    {        "$group": {            "_id": null,            "count": {                "$sum": 1            }        }    }])

对所有城市人数求合
SQL的语法格局如下
select sum(pop) AS tota from zips;
mongoDB的语法格局
db.zips.aggregate([    {        "$group": {            "_id": null,            "total": {                "$sum": "$pop"            }        }    }])

对城市缩写雷同的城市人数求合
SQL的语法格局如下
select state,sum(pop) AS tota from zips group by state;
mongoDB的语法格局
db.zips.aggregate([    {        "$group": {            "_id": "$state",            "total": {                "$sum": "$pop"            }        }    }])

state反复的城市个数
SQL的语法格局如下
select state,count(1) AS total from zips group by state;
mongoDB的语法格局
db.zips.aggregate([    {        "$group": {            "_id": "$state",            "total": {                "$sum": 1            }        }    }])

state反复个数大于100的城市
SQL的语法格局如下
select state,count(1) AS total from zips group by state having count(1)>100;
mongoDB的语法格局
db.zips.aggregate([    {        "$group": {            "_id": "$state",            "total": {                "$sum": 1            }        }    },    {        "$match": {            "total": {                "$gt": 100            }        }    }])

本文由传智教育博学谷 - 狂野架构师教研团队公布,转载请注明出处!

如果本文对您有帮忙,欢送关注和点赞;如果您有任何倡议也可留言评论或私信,您的反对是我保持创作的能源