关于mongodb:MongoDB-日常运维实践总结

一、MongoDB 集群简介

MongoDB是一个基于分布式文件存储的数据库，其目标在于为WEB利用提供可扩大的高性能数据存储解决方案。上面将以3台机器介绍最常见的集群计划。具体介绍，能够查看官网 https://docs.mongodb.com/v3.4…。

1、集群组件的介绍

mongos（路由解决）：作为Client与MongoDB集群的申请入口，所有用户申请都会透过Mongos协调，它会将数据申请发到对应的Shard(mongod)服务器上，再将数据合并后回传给用户。

config server（配置节点）：即：配置服务器；次要保留数据库的元数据，蕴含数据的散布(分片)以及数据结构，mongos收到client收回的需要后，会从config server加载配置信息并缓存于内存中。个别在生产环境会配置不只一台config server，因为它保留的元数据极为重要，若损坏则影响整个集群运作。

shard（分片实例存储数据）：shard就是分片。MongoDB利用分片的机制来实现数据分布存储与解决，达到横向扩容的目标。默认状况下，数据在分片之间会主动进行移转，以达到均衡，此动作是靠一个叫平衡器(balancer)的机制达成。

replica set（正本集）：正本集实现了数据库高可用，若没做正本集，则一旦存放数据的服务器节点挂掉，数据就失落了，相同若配置了正本集，则同样的数据会保留在正本服务器中(正本节点)，个别正本集蕴含了一个主节点与多个正本节点，必要时还会配置arbiter(仲裁节点)作为节点挂掉时投票用。

arbiter（仲裁节点）：仲裁服务器自身不蕴含数据，仅能在主节点故障时，检测所有正本服务器并选举出新的主节点，其实现形式是通过主节点、正本节点、仲裁服务器之间的心跳(Heart beat)实现。

2、MongoDB利用场景

网站数据：适宜实时的插入，更新与查问，并具备网站实时数据存储所需的复制及高度伸缩性。

缓存：因为性能很高，也适宜作为信息基础设施的缓存层。在零碎重启之后，搭建的长久化缓存能够防止上层的数据源过载。

大尺寸、低价值的数据：应用传统的关系数据库存储一些数据时可能会比拟贵，在此之前，很多程序员往往会抉择传统的文件进行存储。

高伸缩性的场景：非常适合由数十或者数百台服务器组成的数据库。

用于对象及JSON数据的存储：MongoDB的BSON数据格式非常适合文档格式化的存储及查问。

3、选用MongoDB的原因

选用MongoDB的数据是以BSON的数据格式，高度伸缩不便扩大，并且数据程度扩大非常简单，反对海量数据存储，性能强悍。

二、集群的监测

1、监测数据库存储统计信息

docker中进入mongos或shard实例，执行以下命令：

docker exec -it mongos bash;
mongo --port 20001;
use admin;
db.auth("root","XXX");

阐明:通过此命令，能够查问集群的成员的汇合数量、索引数量等相干数据。13个Mongodb GUI可视化管理工具，总有一款适宜你

db.stats();

2、查看数据库的统计信息

阐明：通过此命令，能够查看操作数量、内存应用情况、网络io等

db.runCommand( { serverStatus: 1 } )；

3、查看复制集成员状态

rs.status()；

三、根本的运维操作

1、设置和查看慢查问

# 设置慢查问
db.setProfilingLevel(1,200);
# 查看慢查问级别
db.getProfilingLevel();
# 查问慢查问日志，此命令是针对于某一库进行设置
db.system.profile.find({ ns : 'dbName.collectionName'}).limit(10).sort( { ts : -1 } ).pretty();

2、查看执行操作工夫较长的动作

db.currentOp({"active" : true,"secs_running" : { "$gt" : 2000 }});

3、动静调整日志级别和设置缓存大小

# 设置日志级别参数
db.adminCommand( { "getParameter": 1, "logLevel":1});
# 设置cache大小参数
db.adminCommand( { "setParameter": 1, "wiredTigerEngineRuntimeConfig": "cache_size=4G"});

4、增加和移除复制集成员

# 查看复制集成员
rs.status().members;
# 增加成员
rs.add('127.0.0.1:20001')；
# 移除成员
rs.remove('127.0.0.1:20001')；

5、设置数据库和汇合分片

# 在mongos admin库设置库容许分片
sh.enableSharding("dbName");
# 在mongos 的admin库设置汇合分片片键
sh.shardCollection("dbName.collectionName", { filedName: 1} );

6、增加和移除分片

# 查看分片状态
sh.status()；
# 在mongos执行增加分片（能够为单个实例或复制集）
db.runCommand( { removeShard: "shardName" } )；
db.runCommand({addshard:"rs1/ip-1:20001,ip-2:20001,ip-3:20001"});
# 在mongos执行移除分片
db.runCommand( { removeShard: "shard3" } )；
# 在mongos执行刷新mongos配置信息
db.runCommand("flushRouterConfig"))；

阐明：移除分片命令至多执行两次能力胜利删除，执行到state为completed才真正删除，否则就是没用删除胜利，该分片处于{“draining” : true}状态，该状态下岂但该分片没用删除胜利，而且还影响接下来删除其余分片操作，遇到该状态再执行一次removeshard即可，最好就是删除分片时始终反复执行删除命令，直到state为completed；还有一个须要留神的中央就是：被胜利删除的分片如果想要再退出集群时，必须将data数据目录清理洁净才能够再退出集群，否则即便能退出胜利也不会存储数据，汇合都不会被创立。

另外：在删除分片的时有可能整个过程呈现有限{“draining” : true}状态，等多久还是这样，而且分片下面的块一个都没有挪动到别的分片，解决办法是：在config的config数据库的shard汇合中找到该分片的信息，并将draining字段由True改为False,再持续试着删除操作” 下面这句会立刻返回，理论在后盾执行。在数据移除的过程当中，肯定要留神实例的日志信息，可能呈现数据块在迁徙的过程中，始终找不到边界条件，导致始终数据迁徙不胜利，始终重试，解决方案是删除边界数据，重启实例。

如果此分片为主分片，须要先迁徙主分片。db.runCommand( { movePrimary: “XXX”, to: “other” })；在实现删除后，所有mongos上运行上面命令，再对外提供服务，当然也能够重新启动所有mongos实例。

7、数据的导入导出

# 导出容许指定导出条件和字段
mongoexport -h 127.0.0.1 --port 20001 -uxxx -pxxx -d xxx -c mobileIndex -o XXX.txt 
mongoimport -h 127.0.0.1 --port 20001 -uxxx -pxxx -d xxx -c mobileIndex --file XXX.txt

四、MongoDB数据迁徙

1、迁徙复制集当中的成员

敞开 mongod 实例,为了确保安全敞开,应用 shutdown 命令；
将数据目录(即 dbPath )转移到新机器上；
在新机器上启动 mongod，其中节点的数据目录为copy的文件目录；
连贯到复制集以后的主节点上；

如果新节点的地址发生变化,应用 rs.reconfig() 更新复制集配置文档；举例,上面的命令过程将成员中位于第 2 位的地址进行更新:

cfg = rs.conf()
cfg.members[2].host = "127.0.0.1:27017"
rs.reconfig(cfg)

应用 rs.conf() 确认应用了新的配置. 期待所有成员恢复正常,应用 rs.status() 检测成员状态。

2、迁徙复制集主节点

在迁徙主节点的时候,须要复制集选举出一个新的主节点,在进行选举的时候,复制集将读写,通常,这只会继续很短的工夫,不过,应该尽可能在影响较小的时间段内迁徙主节点.

主节点降级,以使得失常的 failover开始.要将主节点降级,连贯到一个主节点,应用 replSetStepDown办法或者应用rs.stepDown()办法,上面的例子应用了 rs.stepDown()办法进行降级:

rs.stepDown()

等主节点降级为从节点,另一个成员成为 PRIMARY 之后,能够依照 “迁徙复制集的一个成员”迁徙这个降级了的节点.能够应用 rs.status()来确认状态的扭转。

3、从复制集其余节点复原数据

MongoDB 通过复制集能保障高牢靠的数据存储，通常生产环境倡议应用「3节点复制集」，这样即便其中一个节点解体了无奈启动，咱们能够间接将其数据清掉，重新启动后，以全新的 Secondary 节点退出复制集，或者是将其余节点的数据复制过去，重新启动节点，它会主动的同步数据，这样也就达到了复原数据的目标。

敞开须要数据同步的节点

docker stop node;  # docker环境中
db.shutdownServer({timeoutSecs: 60}); # 非docker环境

拷贝指标节点机器的数据存储目录(/dbPath)到以后机器的指定目录。

scp 指标节点 shard/data -> 以后节点 shard/data

以后节点以复制过去的数据文件启动节点

将新的节点增加到复制集

# 进入复制集的主节点，执行增加新的节点命令
rs.add("hostNameNew:portNew"); 
# 期待所有成员恢复正常,检测成员状态
rs.status();
# 移除原来的节点
rs.remove("hostNameOld>:portOld");

五、MongoDB线上问题场景解决

1、MongoDB 新建索引导致库被锁

问题阐明：某线上千万级别汇合，为优化业务，间接执行新建索引命令，导致整个库被锁，应用服务呈现不可用。

解决方案：找出此操作过程，并且杀死。改为后盾新建索引，速度会很慢，然而不会影响业务，该索引只会在新建实现之后，才会失效；

# 查问运行工夫超过200ms操作 
db.currentOp({"active" : true,"secs_running" : { "$gt" : 2000 }}) ；
# 杀死执行工夫过长操作操作
db.killOp(opid)
# 后盾新建索引
db.collectionNmae.ensureIndex({filedName:1}, {background:true});

2、MongoDB没有限度内存，导致实例退出

问题阐明：生产环境某台机器启动多个mongod实例，运行一段时间过后，过程莫名被杀死；

解决方案：当初MongoDB应用WiredTiger作为默认存储引擎，MongoDB同时应用WiredTiger外部缓存和文件系统缓存。从3.4开始，WiredTiger外部缓存默认应用较大的一个：50％（RAM – 1 GB），或256 MB。例如，在总共4GB RAM的零碎上，WiredTiger缓存将应用1.5GB的RAM（）。相同，具备总共1.25 GB RAM的零碎将为WiredTiger缓存调配256 MB，因为这超过总RAM的一半减去1千兆字节（）。

0.5 * (4 GB - 1GB) = 1.5 GB``0.5 * (1.25 GB - 1 GB) = 128 MB < 256 MB。如果一台机器存在多个实例，在内存不足的情景在，操作系统会杀死局部过程；
# 要调整WiredTiger外部缓存的大小，调节cache规模不须要重启服务，咱们能够动静调整：
db.adminCommand( { "setParameter": 1, "wiredTigerEngineRuntimeConfig": "cache_size=xxG"})

3、MongoDB删除数据，不开释磁盘空间

问题阐明：在删除大量数据(自己操作的数据量在2000万+)的情景下，并且在生产环境中申请量较大，此时机器的cpu负载会显得很高，甚至机器卡顿无奈操作，这样的操作应该审慎分批量操作；在删除命令执行完结之后，发现磁盘的数据量大小并没有扭转。

解决方案：

计划一：咱们能够应用MongoDB提供的在线数据膨胀的性能，通过Compact命令db.collectionName.runCommand(“compact”)进行Collection级别的数据膨胀，去除汇合所在文件碎片。此命令是以Online的形式提供膨胀，膨胀的同时会影响到线上的服务。为了解决这个问题，能够先在从节点执行磁盘整顿命令，操作完结后，再切换主节点，将原来的主节点变为从节点，从新执行Compact命令即可。
计划二：应用从节点从新同步，secondary节点重同步，删除secondary节点中指定数据，使之与primary从新开始数据同步。当正本集成员数据太过古老，也能够应用从新同步。数据的从新同步与间接复制数据文件不同，MongoDB会只同步数据，因而重同步实现后的数据文件是没有空集合的，以此实现了磁盘空间的回收。
针对一些非凡状况，不能下线secondary节点的，能够新增一个节点到正本集中，而后secondary就主动开始数据的同步了。总的来说，重同步的办法是比拟好的，第一根本不会阻塞正本集的读写，第二耗费的工夫绝对前两种比拟短。
若是primary节点，先强制将之变为secondary节点，否则跳过此步骤：rs.stepdown(120)；
而后在primary上删除secondary节点：rs.remove(“IP:port”);
删除secondary节点dbpath下的所有文件
将节点重新加入集群，而后使之主动进行数据的同步：rs.add(“IP:port”);
等数据同步实现后，循环1-4的步骤能够将集群中所有节点的磁盘空间开释

4、MongoDB机器负载极高

问题阐明：此情景是在客户申请较大的情景性，因为部署MongoDB的机器蕴含一主一从，MongoDB使得IO100%，数据库阻塞，呈现大量慢查问，进而导致机器负载极高，应用服务齐全不可用。

解决方案：在没有机器及时扩容的情况下，首要任务便是减小机器的IO，在一台机器呈现一主一从，在大量数据写入的状况下，会相互抢占IO资源。于是此时摒弃了MongoDB高可用的特点，摘掉了复制集当中的从节点，保障每台机器只有一个节点能够占用磁盘资源。之后，机器负载立马下来，服务变为失常可用状态，然而此时MongoDB无奈保证数据的完整性，一旦有主节点挂掉便会失落数据。

此计划只是长期办法，基本解决是能够减少机器的内存、应用固态硬盘，或者采纳减少分片集来缩小单个机器的读写压力。

# 进入主节点，执行移除成员的命令
rs.remove("127.0.0.1:20001");
# 留神：切勿间接关停实例

5、MongoDB分片键抉择不当导致热读热写

问题阐明：生产环境中，某一汇合的片键应用了与_id生成形式类似，含有工夫序列的字段作为升序片键，导致数据写入时都在一个数据块，随着数据量增大，会造成数据迁徙到后面的分区，造成系统资源的占用，偶然呈现慢查问。

解决方案：长期计划设置数据迁徙的窗口，放在在失常的工夫区段，对业务造成影响。基本解决是更换片键。

# 连贯mongos实例，执行以下命令
db.settings.update({ _id : "balancer" }, { $set : { activeWindow : { start : "23:00", stop : "4:00" } } }, true )；
# 查看平衡窗口
sh.getBalancerWindow()；

六、MongoDB优化倡议

1、利用层面优化

查问优化：确认你的查问是否充分利用到了索引，用explain命令查看一下查问执行的状况，增加必要的索引，防止扫表操作。

正当设计分片键：

增量sharding-key：适宜于可划分范畴的字段，比方integer、float、date类型的，查问时比拟快。
随机sharding-key: 实用于写操作频繁的场景，而这种状况下如果在一个shard上进行会使得这个shard负载比其余高,不够平衡，故而心愿能hash查问key，将写散布在多个shard上进行,思考复合key作为sharding key，总的准则是查问快，尽量减少跨shard查问，balance平衡次数少；
繁多递增的sharding key，可能会造成写数据全副在最初一片上，最初一片的写压力增大，数据量增大，会造成数据迁徙到后面的分区。MongoDB默认是单条记录16M，尤其在应用GFS的时候，肯定要留神shrading-key的设计。不合理的sharding-key会呈现，多个文档，在一个chunks上，同时，因为GFS中存贮的往往是大文件，导致MongoDB在做balance的时候无奈通过sharding-key来把这多个文档离开到不同的shard上，这时候MongoDB会一直报错最初导致MongoDB倒掉。解决办法：加大chunks大小（治本），设计正当的sharding-key（治标）。

通过profile来监控数据：进行优化查看以后是否开启profile性能,用命令db.getProfilingLevel() 返回level等级，值为0|1|2，别离代表意思：0代表敞开，1代表记录慢命令，2代表全副。开启profile性能命令为 db.setProfilingLevel(level); #level等级，值level为1的时候，慢命令默认值为100ms，更改为db.setProfilingLevel(level,slowms)如db.setProfilingLevel(1,50)这样就更改为50毫秒通过db.system.profile.find() 查看以后的监控日志。

2、硬件层面优化

2.1 确定热数据大小

可能你的数据集十分大，然而这并不那么重要，重要的是你的热数据集有多大，你常常拜访的数据有多大(包含常常拜访的数据和所有索引数据)。应用MongoDB，你最好保障你的热数据在你机器的内存大小之下，保障内存能包容所有热数据；

2.2 抉择正确的文件系统

MongoDB的数据文件是采纳的预分配模式，并且在Replication外面，Master和Replica Sets的非Arbiter节点都是会事后创立足够的空文件用以存储操作日志。这些文件调配操作在一些文件系统上可能会十分慢，导致过程被Block。所以咱们应该抉择那些空间调配疾速的文件系统。这里的论断是尽量不要用ext3，用ext4或xfs；

3、架构上的优化

尽可能让主从节点摊派在不同的机器上，防止IO操作的与MongoDB在同一台机器；

七、总结

MongoDB具备高性能、易扩大、易上手等特点，在正确应用的状况下，其自身性能还是十分强悍，在一些关键点如片键的抉择、内存的大小和磁盘IO，往往是限度其性能的最大瓶颈。针对于片键，在业务零碎初期，能够先不对汇合进行数据分片，因为分片键一旦确定就无奈批改，前期可依据业务零碎的状况，认真筛选字段。

个别状况下，不倡议应用升序片键（是一种随着工夫稳定增长的字段,自增长的主键是升序键），因为这个会导致部分的热读热写，不能施展分片集群的真正实力。倡议应用hash片键或者随机散发的片键，这样能够保证数据的平均散发在分片节点；针对于内存，倡议内存的大小可能蕴含热数据的大小加索引大小，保障内存能包容所有热数据。

针对于磁盘资源，MongoDB的高速读写是以磁盘的IO作为根底，为了保障其性能，倡议将主从节点以及高IO的利用拆散，以保障IO资源尽可能不存在抢占。

原文链接：https://www.jianshu.com/p/f05…

关于mongodb:MongoDB-日常运维实践总结

一、MongoDB 集群简介

1、集群组件的介绍

2、MongoDB利用场景

3、选用MongoDB的原因

二、集群的监测

1、监测数据库存储统计信息

2、查看数据库的统计信息

3、查看复制集成员状态

三、根本的运维操作

1、设置和查看慢查问

2、查看执行操作工夫较长的动作

3、动静调整日志级别和设置缓存大小

4、增加和移除复制集成员

5、设置数据库和汇合分片

6、增加和移除分片

7、数据的导入导出

四、MongoDB数据迁徙

1、迁徙复制集当中的成员

2、迁徙复制集主节点

3、从复制集其余节点复原数据

五、MongoDB线上问题场景解决

1、MongoDB 新建索引导致库被锁

2、MongoDB没有限度内存，导致实例退出

3、MongoDB删除数据，不开释磁盘空间

4、MongoDB机器负载极高

5、MongoDB分片键抉择不当导致热读热写

六、MongoDB优化倡议

1、利用层面优化

2、硬件层面优化

3、架构上的优化

七、总结

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于mongodb:MongoDB-日常运维实践总结

一、MongoDB 集群简介

1、集群组件的介绍

2、MongoDB利用场景

3、选用MongoDB的原因

二、集群的监测

1、监测数据库存储统计信息

2、查看数据库的统计信息

3、查看复制集成员状态

三、根本的运维操作

1、设置和查看慢查问

2、查看执行操作工夫较长的动作

3、动静调整日志级别和设置缓存大小

4、增加和移除复制集成员

5、设置数据库和汇合分片

6、增加和移除分片

7、数据的导入导出

四、MongoDB数据迁徙

1、迁徙复制集当中的成员

2、迁徙复制集主节点

3、从复制集其余节点复原数据

五、MongoDB线上问题场景解决

1、MongoDB 新建索引导致库被锁

2、MongoDB没有限度内存，导致实例退出

3、MongoDB删除数据，不开释磁盘空间

4、MongoDB机器负载极高

5、MongoDB分片键抉择不当导致热读热写

六、MongoDB优化倡议

1、利用层面优化

2、硬件层面优化

3、架构上的优化

七、总结

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复