关于go:MongoDB-这一篇就够了

MongoDB

MongoDB是一个基于分布式文件存储的数据库，MongoDB是一个介于关系数据库和非关系数据库(nosql)之间的数据库产品。

MongoDB与MySQL术语比照

MongoDB	MySQL
database	database
column	field
document	row
collection	table

database 数据库，与SQL的数据库(database)概念雷同，一个数据库蕴含多个汇合(表)
collection汇合，相当于SQL中的表(table)，一个汇合能够寄存多个文档(行)。
不同之处就在于汇合的构造(schema)是动静的，不须要事后申明一个严格的表构造。更重要的是，默认状况下 MongoDB并不会对写入的数据做任何schema的校验；
- document 文档，相当于SQL中的行(row)，一个文档由多个字段(列)组成，并采纳bson(json)格局示意；
- field字段，相当于SQL中的列(column)，相比一般column的差异在于field的类型能够更加灵便，比方反对嵌套的文档、数组；

MongoDB vs. 关系型数据库

实用场景

利用不须要事务及简单 join 反对
新利用，需要会变，数据模型无奈确定，想疾速迭代开发
利用须要2000-3000以上的读写QPS（更高也能够）
利用须要TB甚至 PB 级别数据存储
利用倒退迅速，须要能疾速程度扩大
利用要求存储的数据不失落利用须要99.999%高可用
利用须要大量的地理位置查问、文本查问

存储引擎和索引

存储引擎

WiredTiger存储引擎之一：根底数据结构剖析

索引类型

MongoDB 索引详解（一）

事物

始终以来，"不反对事务" 是 MongoDB 始终被诟病的问题，当然也能够说这是 NoSQL 数据库的一种衡量(放弃事务，谋求高性能、高可扩大)，但本质上，MongoDB 很早就有事务的概念，然而这个事务只能是针对单文档的，即单个文档的操作是有原子性保障的。
在4.0 版本之后，MongoDB 开始反对多文档的事务：

4.0 版本反对正本集范畴的多文档事务；
4.2 版本反对跨分片的多文档事务(基于两阶段提交)；

MongoDB 尽管曾经在 4.2 开始全面反对了多文档事务，但并不代表大家应该毫无节制地应用它。相同，对事务的应用准则应该是：能不必尽量不必。通过正当地设计文档模型，能够躲避绝大部分应用事务的必要性

为什么？事务 = 锁，节点协调，额定开销，性能影响

MongoDB WiredTiger存储引擎反对read-uncommitted、read-committed和snapshot3种事务隔离级别，MongoDB启动时默认抉择snapshot隔离。

隔离级别	形容
read-uncommitted	一个事务的批改，即便没有提交，对其余事务也都是可见的。事务能够读取未提交的数据，这也被称为“脏读（dirty read）”
read-committed	一个事务从开始直到提交之前，所做的任何批改对其余事务都是不可见的
snapshot	事务开始时，零碎会创立一个快照，从已提交的事务中获取行版本数据，如果行版本数据标识的事务尚未提交，则从更早的事务中获取已提交的行版本数据作为其事务开始时的值。相似于 Repeatable Read

事务开发：写操作事务

writeConcern：决定一个写操作落到多少个节点上才算胜利。writeConcern 的取值包含：

0：发动写操作，不关怀是否胜利；
1~集群最大数据节点数：写操作须要被复制到指定节点数才算胜利；
majority：写操作须要被复制到大多数节点上才算胜利。
all：写操作须要被复制到全副节点上才算胜利。

事务开发：读操作事务

在读取数据的过程中咱们须要关注以下两个问题：

从哪里读？
什么样的数据能够读？

第一个问题是是由 readPreference：决定应用哪一个节点来满足正在发动的读申请

primary: 只抉择主节点；
primaryPreferred：优先选择主节点，如果不可用则抉择从节点；
secondary：只抉择从节点；
secondaryPreferred：优先选择从节点，如果从节点不可用则抉择主节点；
nearest：抉择最近的节点；

第二个问题则是由 readConcern：决定这个节点上的数据哪些是可读的，相似于关系数据库的隔离级别

available：读取所有可用的数据;
local：读取所有可用且属于以后分片的数据;
majority：读取在大多数节点上提交实现的数据;
linearizable：可线性化读取文档;
snapshot：读取最近快照中的数据;

事务开发：多文档事务

MongoDB ACID事务反对

高可用

复制集机制及原理

MongoDB的复制集相似于MySQL的主从架构，然而又比MySQL的主从架构要弱小的多。
复制集的作用：

数据写入时将数据迅速复制到另一个独立节点上
在承受写入的节点产生故障时主动选举出一个新的代替节点

在实现高可用的同时，复制集实现了其余几个附加作用：

数据散发：将数据从一个区域复制到另一个区域，缩小另一个区域的读提早
读写拆散：不同类型的压力别离在不同的节点上执行
异地容灾：在数据中心故障时候疾速切换到异地

复制集架构

一个典型的复制集由3个以上具备投票权的节点组成，包含：
一个主节点（PRIMARY）：承受写入操作和选举时投票
两个（或多个）从节点（SECONDARY）：复制主节点上的新数据和选举时投票
不举荐应用 Arbiter（投票节点）

数据是如何复制的

当一个批改操作，无论是插入、更新或删除，达到主节点时，它对数据的操作将被记录下来（通过一些必要的转换），这些记录称为 oplog。
从节点通过在主节点上关上一个 tailable 游标一直获取新进入主节点的 oplog，并在本人的数据上回放，以此放弃跟主节点的数据统一。
分片集群架构
路由节点 mongos：提供集群入口、转发利用端申请、抉择适合数据节点进行读写、合并多个数据节点的返回
配置节点 Config：提供集群元数据存储、分片数据分布的映射
数据节点 mongod：负责存储数据库数据，每个Shard数据分片默认三节点正本集（三节点正本集由Primary节点+1个Secondary节点+1个Arbiter节点形成）、以复制集为单位横向扩大

分片集群特点：利用全透明，无非凡解决、数据主动平衡、动静扩容，毋庸下线

数据分片策略

Chunks块：MongoDB将分片数据拆分成块。每个分块都有一个基于分片键的上上限范畴

基于范畴：范畴分片能很好的满足『范畴查问』的需要，比方想查问x的值在[-75, 25]之间的所有文档，这时mongos间接能将申请路由到Chunk2，就能查问出所有符合条件的文档。

长处：片键范畴查问性能好、优化读
毛病：数据分布可能不平均、容易有热点

基于 Hash：Hash分片是依据用户的shard key计算hash值（64bit整型），依据hash值依照『范畴分片』的策略将文档散布到不同的chunk

长处：数据分布平均，写优化
毛病：范畴查问效率低

基于 zone / tag：基于地区去划分

文档参考

geektime-mongodb-course