玩转Mongo计算

MongoDB属于 NoSql 中的基于分布式文件存储的文档型数据库，是非关系数据库当中功能最丰富，最像关系数据库的。它支持的数据结构非常松散，是类似 json 的 bson 格式，因此可以存储比较复杂的数据类型。Mongo 最大的特点是它支持的查询语言非常强大，其语法有点类似于面向对象的查询语言，几乎可以实现类似关系数据库单表查询的绝大部分功能，但是写起来并不简单。若能集算器 SPL 语言结合，处理起来就相对容易多了。
现在我们针对 MongoDB 在计算方面的问题进行讨论分析，通过集算器 SPL 语言加以改进，方便用户使用 MongoDB。现从如下情况加以说明：
1. 单表内嵌数组结构的统计……………………………………….. 1
2. 单表内嵌文档求和………………………………………………… 3
3. 分段分组结构………………………………………………………. 5
4. 同构表合并…………………………………………………………. 6
5. 关联嵌套结构情况 1……………………………………………… 8
6. 关联嵌套结构情况 2…………………………………………….. 10
7. 关联嵌套结构情况 3…………………………………………….. 11
8. 多字段分组统计………………………………………………….. 14
9. 两表关联查询……………………………………………………… 16
10. 多表关联查询……………………………………………………. 17
11. 指定数组查找……………………………………………………. 19
12. 关联表中的数组查找…………………………………………… 20
1. 单表内嵌数组结构的统计
对嵌套数组结构中的数据统计处理。查询考试科目的平均分及每个学生的总成绩情况。
测试数据：

期待统计结果：

脚本：
db.student.aggregate( [
{\$unwind : “\$scroe”},
{\$group: {
“_id”: {“lesson”:”\$scroe.lesson”} ,
“qty”:{“\$avg”: “\$scroe.mark”}
}
}
] )

db.student.aggregate( [
{\$unwind : “\$scroe”},
{\$group: {
“_id”: {“name” :”\$name”} ,
“qty”:{“\$sum” : “\$scroe.mark”}
}
}
] )
由于各科分数 scroe 是按课目、成绩记录的数组结构，统计前需要将它拆解，将每科成绩与学生对应，然后再实现分组计算。这需要熟悉 unwind 与 group 组合的应用。
SPL 脚本：

按课目统计的总分数

每个学生的总成绩

脚本说明： A1：连接 mongo 数据库。 A2：获取 student 表中的数据。 A3：将 scroe 数据合并成序表，再按课程分组，计算平均分。 A4：统计每个学生的成绩后返回列名为 NAME、TOTAL 的序表。new 函数表示生成新序表。 A5：关闭数据库连接。这个比较常用嵌套结构统计的例子许多人遭遇过、需要先拆解，主要是熟悉 mongodb 对嵌套数据结构的处理。
2. 单表内嵌文档求和
对内嵌文档中的数据求和处理, 下面要统计每条记录的 income，output 的数量和。
测试数据：

期待统计结果

Mongodb脚本：
var fields = [ “income”, “output”];
db.computer.aggregate([
{
      \$project:{
         “values”:{
            \$filter:{
               input:{
                 “\$objectToArray”:”\$\$ROOT”
            },
           cond:{
                 \$in:[
                    “\$\$this.k”,
                   fields
                ]
            }
           }
        }
     }
},
{
     \$unwind:”\$values”
},
{
     \$project:{
         key:”\$values.k”,
       values:{
            “\$sum”:{
               “\$let”:{
                  “vars”:{
                     “item”:{
                      “\$objectToArray”:”\$values.v”
                   }
                },
                “in”:”\$\$item.v”
            }
          }
       }
   }
},
{\$sort: {“_id”:-1}},
{ “\$group”: {
   “_id”: “\$_id”,
‘income’:{“\$first”: “\$values”},
   “output”:{“\$last”: “\$values”}
}},
]);
filter将income，output 部分信息存放到数组中，用 unwind 拆解成记录，再累计各项值求和，按 _id 分组合并数据。
SPL 脚本：

统计结果

脚本说明： A1：连接数据库 A2：获取 computer 表中的数据 A3：将 income、output 字段中的数据分别转换成序列求和，再与 ID 组合生成新序表 A4：关闭数据库连接。
获取子记录的字段值，然后求和，相对于 mongo 脚本简化了不少。这个内嵌文档与内嵌数组在组织结构上有点类似，不小心容易混淆，注意与上例中的 scroe 数组结构比较，写出的脚本有所不同。
3. 分段分组结构
统计各段内的记录数量。下面按销售量分段，统计各段内的数据量，数据如下：

分段方法：0-3000;3000-5000;5000-7500;7500-10000;10000 以上。
期望结果：

Mongo 脚本
var a_count=0;
var b_count=0;
var c_count=0;
var d_count=0;
var e_count=0;
db.sales.find({

}).forEach(
   function(myDoc) {
        if (myDoc.SALES <3000) {
            a_count += 1;
       }
       else if (myDoc.SALES <5000) {
            b_count += 1;
      }
       else if (myDoc.SALES <7500) {
            c_count += 1;
       }
       else if (myDoc.SALES <10000) {
           d_count += 1;
      }
       else {
           e_count += 1;
       }
   }
   );
print(“a_count=”+a_count)
print(“b_count=”+b_count)
print(“c_count=”+c_count)
print(“d_count=”+d_count)
print(“e_count=”+e_count)
这个需求按条件分段分组，mongodb 没有提供对应的 api，实现起来有点繁琐，上面的程序是其中实现的一个例子参考，当然也可以写成其它实现形式。下面看看集算器脚本的实现。
SPL 脚本：

脚本说明：
      A1：定义 SALES 分组区间。
      A2：连接 mongodb 数据库。
      A3：获取 sales 表中的数据。
      A4：根据 SALES 区间分组统计员工数。其中函数 pseg()表示返回成员在序列中的区段序号，int() 表示转换成整数。
      A5：关闭数据库连接。
pseg 的使用让 SPL 脚本精简了不少。
4. 同构表合并
具有相同结构的多表数据合并。下面将两个员工表数据合并。
Emp1:

Emp2:

合并数据结果：

Mongo 脚本：
db.emp1.aggregate([
{ “\$limit”: 1},
{ “\$facet”: {
    “collection1”: [
      {“\$limit”: 1},
     { “\$lookup”: {
        “from”: “emp1”,
       “pipeline”: [{“\$match”: {} }],
        “as”: “collection1”
      }}
    ],
   “collection2”: [
    {“\$limit”: 1},
     { “\$lookup”: {
       “from”: “emp2”,
        “pipeline”: [{“\$match”: {} }],
       “as”: “collection2”
     }}
   ]
}},
{ “\$project”: {
   “data”: {
     “\$concatArrays”: [
       {“\$arrayElemAt”: [“\$collection1.collection1”, 0] },
       {“\$arrayElemAt”: [“\$collection2.collection2”, 0] },
     ]
   }
}},
{ “\$unwind”: “\$data”},
{ “\$replaceRoot”: { “newRoot”: “\$data”} }
])
通过 facet 将两表数据先存入各自的数组中，然后 concatArrays 将数组合并，unwind 拆解子记录后，并将它呈现在最外层。SPL 脚本实现则没有那么多“花样”。
SPL 脚本：

脚本说明： A1：连接 mongodb 数据库。 A2：获取 emp1 表中的数据。 A3：获取 emp2 表中的数据。 A4：合并两表数据。 A5：关闭数据库连接。
熟悉 sql 语句的 mongo 初学者面对数据合并的 mongo 脚本，估计首次遇到时有点“懵”，SPL 脚本就显得自然易懂了。
5. 关联嵌套结构情况 1
两个关联表，表 A 与表 B 中的内嵌文档信息关联, 且返回的信息在内嵌文档中。表 childsgroup 字段 childs 是嵌套数组结构，需要合并的信息 name 在其下。
history:

childsgroup:

表History中的child_id与表childsgroup中的childs.id关联，希望得到下面结果： {     “_id” : ObjectId(“5bab2ae8ab2f1bdb4f434bc3”),     “id” : “001”,     “history” : “today worked”,     “child_id” : “ch001”,     “childInfo” :     {          “name” : “a”     }    ……………… }
Mongo 脚本
db.history.aggregate([
    {\$lookup: {
       from: “childsgroup”,
    let: {child_id: “\$child_id”},
       pipeline: [
            {\$match: { \$expr: { \$in: [ “\$\$child_id”, “\$childs.id”] } } },
           {\$unwind: “\$childs”},
            {\$match: { \$expr: { \$eq: [ “\$childs.id”, “\$\$child_id”] } } },
            {\$replaceRoot: { newRoot: “\$childs.info”} }
            ],
           as: “childInfo”
       }},
{“\$unwind”: “\$childInfo”}
])
这个脚本用了几个函数lookup、pipeline、match、unwind、replaceRoot处理，一般 mongodb 用户不容易写出这样复杂脚本；那我们再看看 spl 脚本的实现：
SPL 脚本：

关联查询结果：

脚本说明：
      A1：连接 mongodb 数据库。
      A2：获取 history 表中的数据。
      A3：获取 childsgroup 表中的数据。
      A4：将 childsgroup 中的 childs 数据提取出来合并成序表。
      A5：表 history 中的 child_id 与表 childs 中的 id 关联查询，追加 name 字段, 返回序表。
      A6：关闭数据库连接。
相对 mongodb 脚本写法，SPL 脚本的难度降低了不少，省去了熟悉有关 mongo 函数的用法，如何去组合处理数据等，节约了不少时间。
6. 关联嵌套结构情况 2
两个关联表，表 A 与表 B 中的内嵌文档信息关联, 将信息合并到内嵌文档中。表 txtPost 字段 comment 是嵌套数组结构，需要把 comment_content 合并到其下。
txtComment：

txtPost

期望结果：

Mongo 脚本
db.getCollection(“txtPost”).aggregate([
{ “\$unwind”: “\$comment”},
{ “\$lookup”: {
    “from”: “txtComment”,
    “localField”: “comment.comment_no”,
   “foreignField”: “comment_no”,
    “as”: “comment.comment_content”
}},
{ “\$unwind”: “\$comment.comment_content”},
{ “\$addFields”: { “comment.comment_content”:
“\$comment.comment_content.comment_content”}},
{ “\$group”: {
   “_id”: “\$_id”,
   ‘post_no’:{“\$first”: “\$post_no”},
    “comment”: {“\$push”: “\$comment”}
    }},

]).pretty()
表txtPost 按 comment 拆解成记录，然后与表 txtComment 关联查询,将其结果放到数组中，再将数组拆解成记录，将comment_content 值移到 comment 下，最后分组合并。
SPL 脚本：

脚本说明：
      A1：连接 mongodb 数据库。
      A2：获取 txtPost 表中的数据。
      A3：获取 txtComment 表中的数据。
      A4：将序表 A2 下的 comment 与 post_no 组合成序表，其中 post_no 改名为 pno。
      A5：序表 A4 通过 comment_no 与序表 A3 关联，追加字段 comment_content，将其改名为 Content。
      A6：按 pno 分组返回序表，~ 表示当前记录。
      A7：关闭数据库连接。
7. 关联嵌套结构情况 3
两个关联表，表 A 与表 B 中的内嵌文档信息关联, 且返回的信息在记录上。表 collection2 字段 product 是嵌套数组结构，返回的信息是 isCompleted 等字段。
测试数据：
collection1: {    _id: ‘5bc2e44a106342152cd83e97’,    description:     {       status: ‘Good’,       machine: ‘X’      },    order: ‘A’,    lot: ‘1’    };    collection2： {    _id: ‘5bc2e44a106342152cd83e80’,    isCompleted: false,    serialNo: ‘1’,    batchNo: ‘2’,    product: [ // note the subdocuments here         {order: ‘A’, lot: ‘1’},         {order: ‘A’, lot: ‘2’}     ] }
期待结果 {    _id: 5bc2e44a106342152cd83e97,    description:        {          status: ‘Good’,          machine: ‘X’,        },    order: ‘A’,    lot: ‘1’ ,    isCompleted: false,    serialNo: ‘1’,    batchNo: ‘2’ }
Mongo 脚本
db.collection1.aggregate([{
       \$lookup: {
             from: “collection2”,
            let: {order: “\$order”, lot: “\$lot”},
             pipeline: [{
                  \$match: {
                  \$expr:{ \$in: [ { order: “\$\$order”, lot: “\$\$lot”}, “\$product”] }
                   }
                     }],
                     as: “isCompleted”
                    }
               }, {
                    \$addFields: {
                    “isCompleted”: {\$arrayElemAt: [ “\$isCompleted”, 0] }
                    }
              }, {
                    \$addFields: { // add the required fields to the top level structure
                    “isCompleted”: “\$isCompleted.isCompleted”,
                    “serialNo”: “\$isCompleted.serialNo”,
                    “batchNo”: “\$isCompleted.batchNo”
            }
}])
lookup 两表关联查询，首个 addFields获取isCompleted数组的第一个记录，后一个addFields 转换成所需要的几个字段信息
SPL 脚本：

脚本说明：
      A1：连接 mongodb 数据库。
      A2：获取 collection1 表中的数据。
      A3：获取 collection2 表中的数据。
      A4：根据条件 order, lot 从序表 A2 中查询记录，然后追加序表 A3 中的字段serialNo, batchNo，返回合并后的序表。
      A5：关闭数据库连接。
实现从数据记录中的内嵌结构中筛选，将符合条件的数据合并成新序表。
8. 多字段分组统计
统计分类项下的总数及各子项数。下面统计按 addr 分类 book 数及其下不同的 book 数。

期望结果：

Mongo 脚本
db.books.aggregate([
   { “\$group”: {
        “_id”: {
           “addr”: “\$addr”,
           “book”: “\$book”
       },
      “bookCount”: {“\$sum”: 1}
    }},
   { “\$group”: {
       “_id”: “\$_id.addr”,
        “books”: {
            “\$push”: {
                “book”: “\$_id.book”,
               “count”: “\$bookCount”
           },
       },
       “count”: {“\$sum”: “\$bookCount”}
    }},
   { “\$sort”: { “count”: -1} },
   { “\$project”: {
       “books”: {“\$slice”: [ “\$books”, 2] },
       “count”: 1
   }}
]).pretty()
先按 addr,book 分组统计 book 数，再按 addr 分组统计 book 数，调整显示顺序
SPL脚本：

计算结果：

脚本说明： A1：连接 mongodb 数据库。 A2：获取books表中的数据。 A3：按 addr,book 分组统计 book 数， A4：再按 addr 分组统计 book 数。 A5：将 A4 中的 Total 按 addr 关联后合并到序表中。 A6：关闭数据库连接。
9. 两表关联查询
从关联表中选择所需要的字段组合成新表。
Collection1:

collection2:

期望结果：

Mongo 脚本
db.c1.aggregate([
   { “\$lookup”: {
   “from”: “c2”,
       “localField”: “user1”,
       “foreignField”: “user1”,
       “as”: “collection2_doc”
   }},
   { “\$unwind”: “\$collection2_doc”},
   { “\$redact”: {
       “\$cond”: [
           {“\$eq”: [ “\$user2”, “\$collection2_doc.user2”] },
           “\$\$KEEP”,
           “\$\$PRUNE”
       ]
   }},
{ “\$project”: {
       “user1”: 1,
       “user2”: 1,
       “income”: “\$income”,
       “output”: “\$collection2_doc. output”
   }}
   ]).pretty()
lookup 两表进行关联查询，redact 对记录根据条件进行遍历处理，project 选择要显示的字段。
SPL脚本：

脚本说明： A1：连接 mongodb 数据库。 A2：获取c1表中的数据。 A3：获取c2表中的数据。 A4：两表按字段 user1,user2 关联，追加序表 A3 中的 output 字段，返回序表。 A5：关闭数据库连接。
通过 join 把两个关联表不同的字段合并成新表。
10. 多表关联查询
多于两个表的关联查询，结合成一张大表。
Doc1:

Doc2:

Doc3:

合并后的结果： {     “_id” : ObjectId(“5901a4c63541b7d5d3293766”),     “firstName” : “shubham”,     “lastName” : “verma”,     “address” : {         “address” : “Gurgaon”     },     “social” : {         “fbURLs” : “http://www.facebook.com”,         “twitterURLs” : “http://www.twitter.com”     } }
Mongo 脚本
db.doc1.aggregate([
    {\$match: { _id: ObjectId(“5901a4c63541b7d5d3293766”) } },
   {
       \$lookup:
       {
           from: “doc2”,
           localField: “_id”,
           foreignField: “userId”,
           as: “address”
       }
   },
   {
      \$unwind: “\$address”
   },
   {
      \$project: {
            “address._id”: 0,
           “address.userId”: 0,
           “address.mob”: 0
      }
},
{
     \$lookup:
      {
          from: “doc3”,
          localField: “_id”,
          foreignField: “userId”,
          as: “social”
       }
   },
   {
       \$unwind: “\$social”
   },
{
    \$project: {
          “social._id”: 0,
          “social.userId”: 0
    }
}
]).pretty();
由于 Mongodb 数据结构原因，写法也多样化，展示也各不相同。
SPL 脚本：

此脚本与上面例子类似，只是多了一个关联表，每次 join 就新增加字段，最后叠加构成一张大表。.
SPL 脚本的简洁性、统一性就非常明显。
11. 指定数组查找
从指定的数组中查找符合条件的记录。所给的数组为：[“Chemical”, “Biology”, “Math”]。
测试数据：

期望结果：

Mongodb 脚本
var field = [“Chemical”, “Biology”, “Math”]
db.student.aggregate([
{ “\$project”: {
    “name”:1,
    “lessons”: {
     “\$filter”: {
      “input”: “\$lesson”,
       “cond”: {
        “\$in”: [
          “\$\$this”,
           field
        ]
     }
    }
    },
   }},
   { “\$project”: {“name”:1,”lessons”:1,”sizeOflesson”: {“\$size”: “\$lessons”} }},
   { \$match: { “sizeOflesson”:{ \$gt: 0}}}
])
查询选修课包含[“Chemical”, “Biology”, “Math”]的同学。
SPL 脚本：

脚本说明： A1：定义查询条件科目数组。 A2：连接 mongodb 数据库。 A3：获取 student 表中的数据。 A4：查询存在数组中的科目记录。 A5：生成字段为 name, lesson 的新序表，其中符合条件的值存放在字段 lesson 中 A6：关闭数据库连接。
集算器对给定数组中查询记录的实现更简明易懂。
12. 关联表中的数组查找
从关联表记录数据组中查找符合条件的记录, 用给定的字段组合成新表。
测试数据：
users:

workouts:

期望结果：

Mongo 脚本
db.users.aggregate([
{ “\$lookup”: {
    “from” : “workouts”,
    “localField” : “workouts”,
    “foreignField” : “_id”,
    “as” : “workoutDocumentsArray”
}},
{\$project: { _id:0,workouts:0} } ,
{“\$unwind”: “\$workoutDocumentsArray”},;
{“\$replaceRoot”: { “newRoot”: { \$mergeObjects: [ “\$\$ROOT”, “\$workoutDocumentsArray”] } }
},
{$project: { workoutDocumentsArray: 0} }
]).pretty()
把关联表 users,workouts 查询结果放到数组中，再将数组拆解，提升子记录的位置，去掉不需要的字段。
SPL 脚本：

脚本说明：
      A1：连接 mongodb 数据库。
      A2：获取 users 表中的数据。
      A3：获取 workouts 表中的数据。
      A4：查询序表 A3 的 _id 值存在于序表 A2 中 workouts 数组的记录, 并追加 name 字段, 返回合并的序表。
      A5：关闭数据库连接。
由于需要获取序列的交集不为空为条件，故将 _id 转换成序列。
Mongo 存储的数据结构相对关联数据库更复杂、更灵活，其提供的查询语言也非常强、能适应不同的情况，需要了解函数也不少，函数之间的结合更是变化无穷，因此要掌握并熟悉应用它并非易事。集算器的离散性、易用性恰好能弥补 Mongo 这方面的不足，它降低了 mongo 学习成本及使用 mongo 操作的复杂度、难度，让 mongo 的功能得到更充分的展现，同时也希望 mongo 越来越受到广大爱好者的青睐。

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

玩转Mongo计算

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复