mongodb

jiezi

6 年前

本文分两部分，分布式和单机。单个 db 的存储引擎，物理和数据存储简介，事务实现等。分布式架构，分布式涉及的复制集，分片等可靠性和扩展性保障。

wiredTiger（简称 WT）支持行存储、列存储以及 LSM 等 3 种存储形式，Mongodb 使用时，只是将其作为普通的 KV 存储引擎来使用，mongodb 的每个集合对应一个 WT 的 table，table 里包含多个 Key-value pairs，以 B 树形式存储。mongodb 的集合和索引都对应一个 wiredTiger 的 table。并依赖于 wiredTiger 提供的 checkpoint + write ahead log 机制提供高数据可靠性，目前支持单机事务。
按照 Mongodb 默认的配置，WiredTiger 的写操作会先写入 Cache，并持久化到 WAL(Write ahead log journal)，每 60s 或 log 文件达到 2GB 时会做一次 Checkpoint，将当前的数据持久化，产生一个新的快照。Wiredtiger 连接初始化时，首先将数据恢复至最新的快照状态，然后根据 WAL 恢复数据，以保证存储可靠性。
Wiredtiger 的 Cache 采用 Btree 的方式组织，每个 Btree 节点为一个 page，root page 是 btree 的根节点，internal page 是 btree 的中间索引节点，leaf page 是真正存储数据的叶子节点；btree 的数据以 page 为单位按需从磁盘加载或写入磁盘。
Wiredtiger 采用 Copy on write 的方式管理修改操作（insert、update、delete），保证一致性，并且不像 InnoDB 一样，需要一个 DoubleWriteBuffer 保证非 disk block 512B 写时对原有页可能发生 conrrupt。修改操作会先缓存在 cache 里，持久化时，修改操作不会在原来的 leaf page 上进行，而是写入新分配的 page，每次 checkpoint 都会产生一个新的 root page。
内存结构：B 树，索引页和数据页，新插入跳表（有序）更新 list(变更)，wal,copy onn write
物理结构：

写入：写入页的跳表，不改变原值
更新：写入更新数组中
读取：若有 update 合并
做 checkpoint 时，将更新和写入到新的页中，生成新的 page_root 快照。
ACID：隔离用的未提交快照。注意这个快照只是读用的。写还是到最新页。
journal: 并发，预先分配 slots, 申请用 CAS，buffer 和 lsn 刷盘
关于快照, 缓存，数据
每个事务有自己的快照 (可能是旧的 page_root)，新的事务会获取当前最新 page_root，checkpoint 对最新的最持久化和生成新 page_root 到磁盘，按需读取到内存。新建连接会先进行磁盘的数据的数据恢复，最新快照 +WAL，按需读入内存
cache 驱逐：略
数据清理：

compact 加的是 DB 级别的互斥写锁，同一个 DB 上的读写都会被阻塞
compact 基本不需要额外的空间，wiredtiger compact 的原理是将数据不断往前面的空洞挪动，并不需要把数据存储到临时的位置（额外的存储空间）。

运行中内存占用
存储引擎 cache，集合，索引元数据，新写入数据
MongoDB Driver 会跟 mongod 进程建立 tcp 连接，并在连接上发送数据库请求，接受应答，tcp 协议栈除了为连接维护 socket 元数据为，每个连接会有一个 read buffer 及 write buffer，用户收发网络包，buffer 的大小通过如下 sysctl 系统参数配置，分别是 buffer 的最小值、默认值以及最大值。500 个类似的连接就会占用掉 1GB 的内存，ss -m
其他并发大时排序等
主备节点差异，备节点 buffer 存储 oplog

分片：范围，hash
迁移步骤：
集合分片开启后，默认会创建一个新的 chunk，shard key 取值 [minKey, maxKey] 内的文档（即所有的文档）都会存储到这个 chunk。当使用 Hash 分片策略时，可以预先创建多个 chunk，以减少 chunk 的迁移。

一个 Sharded Cluster 里可能有很多个 mongos，如果所有的 mongos 的 Balancer 同时去触发迁移，整个集群就乱了，为了不出乱子，同一时刻只能让一个 Balancer 去做负载均衡。
Balancer 在开始负载均衡前，会先抢锁（config.locks 集合下的一个特殊文档），抢到锁的 Balancer 继续干活，没抢到锁的则继续等待，一段时间后再尝试抢锁。

Step1: mongos 发送 moveChunk 给源 shard
mongos 接受到用户发送的迁移 chunk 命令，或者因负载均衡策略需要迁移 chunk，会构建一个 moveChunk 的命令，并发送给源 shard。Step2：源 shard 通知目标 shard 开始同步 chunk 数据
源 shard 收到 mongos 发送的 moveChunk 命令后，会向目标 shard 发送 _recvChunkStart 的命令，通知目标 shard 开始迁移数据（真正的数据迁移由目标 shard 主动发起）。接下来，源 shard 会记录该 chunk 在迁移过程中的所有增量修改操作。Step3: 目标 shard 同步 chunk 数据到本地
目标 shard 接受到 _recvChunkStart 命令后，就会启动单独的线程来读取 chunk 数据并写到本地，主要步骤包括：目标 shard 创建集合及索引（如果有必要）如果迁移的集合在目标 shard 上没有任何 chunk，则需要先在目标 shard 上创建集合，并创建跟源 shard 上集合相同的索引
    目标 shard 清理脏数据（如果有必要）如果目标 shard 上已经存在该 chunk 范围内的数据，则肯定为某次迁移失败导致的脏数据，先将这些数据清理掉。目标 shard 向源 shard 发送 _migrateClone 命令读取 chunk 范围内的所有文档并写入到本地，即迁移 chunk 全量数据，迁移完后更新状态为 STEADY（可以理解为全量迁移完成的状态）。源 shard 会不断调用查询目标 shard 上的迁移状态，看是否为 STEADY 状态，如果已经是 STEADY 状态，就会停止源 shard 上的写操作（通过对集合加互斥写锁实现）。接下来发送 _recvChunkCommit 告诉目标 shard 不会再有新的写入了。目标 shard 的迁移线程不断向源 shard 发送 _transferMods 命令，读取迁移过程中的增量修改，并应用到本地，增量迁移完成后，向源确认 _recvChunkCommit 的结果。源 shard 收到 _recvChunkCommit 的结果，整个数据迁移的步骤完成。Step4：源 shard 更新 config server 元数据
数据迁移完成后，源 shard 就会向 config server 更新 chunk 对应的 shard 信息，同时也会更新 chunk 的版本信息，这样 mongos 发现本地版本更低就会主动的 reload 元数据，具体机制参考 MongoDB Sharded Cluster 路由策略。Step5：源 shard 删除 chunk 数据
chunk 迁移到目标 shard 后，源上的 chunk 就没有必要再保存了，源 shard 会将 chunk 数据删除，默认情况下源 shard 会将删除操作加入到队列，异步删除，如果 moveChunk 时，指定了 _waitForDelete 参数为 true，则同步删除完再返回。一旦源 shard 查询到目标 shard 进入到 STEADY 状态了，源 shard 就会进入临界区，测试源上的写就会排队等待。等整个迁移完了，这些等待的写操作就会继续执行，但此时 chunk 的版本号已经更新了，会告诉客户端版本过低，客户端重新从 config server 读取配置，此时拿到的路由信息里 chunk 已经在目标 shard 了，然后写会发往目标 shard。

Secondary 初次同步数据时，会先进行 init sync，从 Primary（或其他数据更新的 Secondary）同步全量数据，然后不断通过 tailable cursor 从 Primary 的 local.oplog.rs 集合里查询最新的 oplog 并应用到自身。
oplog: 幂等（incr 会转为 set），循环覆盖，
顺序保证：写入 oplog 前，会先加锁给 oplog 分配时间戳，并注册到未提交列表里，正式写入 oplog，在写完后，将对应的 oplog 从未提交列表里移除，在拉取 oplog 时若未提交列表为空，所有 oplog 都可读，否则只能到未提交列表最小值以前的 oplog
Secondary 拉取到一批 oplog 后，在重放这批 oplog 时，会加一个特殊的 Lock::ParallelBatchWriterMode 的锁，这个锁会阻塞所有的读请求，直到这批 oplog 重放完成

client 与复制集心跳，复制集之间心跳
复制集成员间默认每 2s 会发送一次心跳信息，如果 10s 未收到某个节点的心跳，则认为该节点已宕机；如果宕机的节点为 Primary，Secondary（前提是可被选为 Primary）会发起新的 Primary 选举。Bully 算法
每个节点都倾向于投票给优先级最高的节点（oplog 时间戳，一样谁先就谁）
优先级为 0 的节点不会主动发起 Primary 选举
当 Primary 发现有优先级更高 Secondary，并且该 Secondary 的数据落后在 10s 内，则 Primary 会主动降级，让优先级更高的 Secondary 有成为 Primary 的机会。
如果 Primary 与大多数的节点断开连接，Primary 会主动降级为 Secondary
当复制集内存活成员数量不足大多数时，整个复制集将无法选举出 Primary，复制集将无法提供写服务，处于只读状态
当 Primary 宕机时，如果有数据未同步到 Secondary，当 Primary 重新加入时，如果新的 Primary 上已经发生了写操作，则旧 Primary 需要回滚部分操作，以保证数据集与新的 Primary 一致。旧 Primary 将回滚的数据写到单独的 rollback 目录下，数据库管理员可根据需要使用 mongorestore 进行恢复。
Bully

如果 P 是最大的 ID，直接向所有人发送 Victory 消息，成功新的 Leader；否则向所有比他大的 ID 的进程发送 Election 消息
如果 P 再发送 Election 消息后没有收到 Alive 消息，则 P 向所有人发送 Victory 消息，成功新的 Leader
如果 P 收到了从比自己 ID 还要大的进程发来的 Alive 消息，P 停止发送任何消息，等待 Victory 消息（如果过了一段时间没有等到 Victory 消息，重新开始选举流程）如果 P 收到了比自己 ID 小的进程发来的 Election 消息，回复一个 Alive 消息，然后重新开始选举流程
如果 P 收到 Victory 消息，把发送者当做 Leader

Secondary
Arbiter 节点只参与投票，不能被选为 Primary，并且不从 Primary 同步数据，偶数时加入
Priority0 节点的选举优先级为 0，不会被选举为 Primary
Vote0 复制集成员最多 50 个，参与 Primary 选举投票的成员最多 7 个，其他成员（Vote0）
Hidden（Vote0）可使用 Hidden 节点做一些数据备份、离线计算的任务，不会影响复制集的服务。
Delayed 节点必须是 Hidden 节点，并且其数据落后与 Primary 一段时间（错误恢复）

mongodb

第一部分单机存储引擎介绍

引擎

分布式

扩展性

复制集：

数据同步

故障检测恢复

部署

第一部分 单机存储引擎介绍

引擎

分布式

扩展性

复制集：

数据同步

故障检测恢复

部署

第一部分单机存储引擎介绍