关于mongodb:mongodb常用命令4聚合及管道

1.应用聚合aggregate及管道group查问反复数据：

首先我的数据库是这样的（存在很多反复数据）：

当初应用聚合aggregate查问反复数据：

db.ss_tests.aggregate([{$group : {_id : "$id", count : {$sum : 1}}}])

db.ss_tests.aggregate([{ $group: { _id: {id: '$id'},count: {$sum: 1}} }])

两条语句是一样的。只不过一个间接输入value，一个减少了key值。

*语法解释：应用聚合aggregate函数查问，应用索引_id进行查问,将id雷同的应用管道$group将其分为一组，并应用sum计算一组的个数，将其赋值给count，输入

能够看到，我下面语句查问到的反复数据有的有20几条之多！

2.删除反复数据：

办法一，应用聚合解决：

db.ss_tests.aggregate([

  {

      $group: { _id: '$id',count: {$sum: 1},multiples: {$addToSet: '$_id'}}

  },

  {

      $match: {count: {$gt: 1}}

  }

]).forEach(function(doc){

  doc.multiples.shift();

  db.ss_tests.remove({_id: {$in: doc.dups}});

})

*语法解释：
1.应用聚合函数对ss_tests的id雷同的文档（document）进行分组，应用$sum进行计算统计id雷同的条数，并把条数赋值给count,应用$addToSet在返回后果中减少key为：multiples，value为：_id字段（因为聚合分组只会返回参加分组的字段）；
演示：
（1）不实用addToset:
db.ss_tests.aggregate([{ $group: { _id: {id: '$id'},count: {$sum: 1}} }])
后果很清晰，没有多余的数据：

{ "_id" : { "id" : "3714" }, "count" : 2 }
{ "_id" : { "id" : "3542" }, "count" : 1 }
{ "_id" : { "id" : "3457" }, "count" : 24 }
{ "_id" : { "id" : "3856" }, "count" : 23 }
{ "_id" : { "id" : "3261" }, "count" : 4 }
{ "_id" : { "id" : "3857" }, "count" : 23 }
{ "_id" : { "id" : "3849" }, "count" : 1 }
{ "_id" : { "id" : "3771" }, "count" : 23 }
{ "_id" : { "id" : "3321" }, "count" : 24 }
{ "_id" : { "id" : "2983" }, "count" : 24 }
{ "_id" : { "id" : "4141" }, "count" : 23 }
{ "_id" : { "id" : "4066" }, "count" : 23 }
{ "_id" : { "id" : "3918" }, "count" : 23 }
{ "_id" : { "id" : "3770" }, "count" : 23 }
{ "_id" : { "id" : "3696" }, "count" : 24 }
{ "_id" : { "id" : "3548" }, "count" : 24 }
{ "_id" : { "id" : "3519" }, "count" : 24 }
{ "_id" : { "id" : "3134" }, "count" : 24 }
{ "_id" : { "id" : "3129" }, "count" : 24 }
{ "_id" : { "id" : "3054" }, "count" : 24 }

2.应用addToset的范例：
单单是“_id:3054”的就有这么多数据，因为它会把每一个符合条件的“_id”退出对象中

{ "_id" : "3054", "count" : 24, "multiples" : [ ObjectId("605a7b8e00c31774b8b1d71f"), ObjectId("605a24b8484104570ceff2ca"), ObjectId("60556465ecc3c2203bcb77b3"), ObjectId("60550d8b1f84370319fddae4"), ObjectId("6054b6b1d47438654aeb098f"), ObjectId("605408f85c26901b6393f2a1"), ObjectId("60545fd3396fea44070dcb12"), ObjectId("605ad26bbe00311786e9a0bb"), ObjectId("6055bb3d0812c740b987fc40"), ObjectId("6057169a70776d3ef59e48ba"), ObjectId("60535aa7c3e533526a0d0e9d"), ObjectId("6053b21d9b938d73a90c1709"), ObjectId("605668e989cf997e62ec36c0"), ObjectId("6058c8c9b9015359d723678f"), ObjectId("60597709e1767e19b9b5b4e8"), ObjectId("605303ca9c9956350d1b5672"), ObjectId("60581b1d9aeace1a78562abe"), ObjectId("605612135f71606091ced0d4"), ObjectId("6056bfc0d8e4b71fd81c4318"), ObjectId("6057c4476b779b7b337cf037"), ObjectId("605871f3735c7a3af6bb659b"), ObjectId("60576d7058a77d5b9ad21916"), ObjectId("605920335ae8b5784cfbe330"), ObjectId("6059cde2206111394daa441e") ] }

2.再应用match匹配大id雷同条数大于1的document；
此处演示不必addToSet下的后果，比拟容易看：
演示范例：
db.ss_tests.aggregate([{ $group: { _id: {id: '$id'},count: {$sum: 1}} }, {$match: {count: {$gt: 1}}}])
后果都是count大于1的后果：

{ "_id" : { "id" : "3714" }, "count" : 24 }
{ "_id" : { "id" : "3542" }, "count" : 24 }
{ "_id" : { "id" : "3457" }, "count" : 24 }
{ "_id" : { "id" : "3856" }, "count" : 23 }
{ "_id" : { "id" : "3261" }, "count" : 24 }
{ "_id" : { "id" : "3857" }, "count" : 23 }
{ "_id" : { "id" : "3849" }, "count" : 23 }
{ "_id" : { "id" : "3771" }, "count" : 23 }
{ "_id" : { "id" : "3321" }, "count" : 24 }
{ "_id" : { "id" : "2983" }, "count" : 24 }
{ "_id" : { "id" : "4141" }, "count" : 23 }
{ "_id" : { "id" : "4066" }, "count" : 23 }
{ "_id" : { "id" : "3918" }, "count" : 23 }
{ "_id" : { "id" : "3770" }, "count" : 23 }
{ "_id" : { "id" : "3696" }, "count" : 24 }
{ "_id" : { "id" : "3548" }, "count" : 24 }
{ "_id" : { "id" : "3519" }, "count" : 24 }
{ "_id" : { "id" : "3134" }, "count" : 24 }
{ "_id" : { "id" : "3129" }, "count" : 24 }
{ "_id" : { "id" : "3054" }, "count" : 24 }

3.应用js的forEach对返回的group组进行遍历，应用js办法的shift函数将每一个数组的反复的数据的第一个移除。此时再进行删除剩下反复的，因为后面的shift办法移除掉每一个反复数据的第一个，所以达到了保留的数据的都没有反复的目标

去除反复数据前，我的ss_tests数据汇合中有这么多数据：

应用forEach去除数据后：

办法2：应用distinct办法去除反复数据：
此办法有些限度，摘抄官网文档一段话：

NOTE

Results must not be larger than the maximum BSON size. If your results exceed the maximum BSON size, use the aggregation pipeline to retrieve distinct values using the $group operator, as described in Retrieve Distinct Values with the Aggregation Pipeline.

他说最大的数据量不能超过BSON的最大容量，即16MB,且要传入反复值的字符串，能力删除，此处不做展现，间接放弃。

关于mongodb:mongodb常用命令4聚合及管道

1.应用聚合aggregate及管道group查问反复数据：

2.删除反复数据：

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于mongodb:mongodb常用命令4聚合及管道

1.应用聚合aggregate及管道group查问反复数据：

2.删除反复数据：

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复