关于hbase:hbase运维故障案例分析

在理论运维HBase集群时，各位小伙伴总会遇到RegionServer异样宕机、业务写入提早增大甚至无奈写入等相似问题。本章联合笔者的教训、列举实在生产线环境常见的几个问题，并介绍这些地问题的根本排查思路。同时，重点对HBase零碎中的日志进行梳理介绍，最初对如何通过监控、日志等工具进行问题排查进行总结，造成问题排查套路，不便读者进行实际。

regionserver宕机

案例一: 长时间GC导致Regionserver宕机

长时间FullGC是RegionServer宕机最常见的起因.剖析这类问题,能够遵循如下排错过程:

景象：收到Regionserver过程退出的报警。

1. 宕机起因定位

步骤1: 通常在监控上看不出，须要到事发的RegionServer日志间接搜寻2类关键字—a long garbage collecting pause 或ABORTING region server。对于长时间Full GC的场景，搜寻第一个关键字会检索到:

     2019-06-14T17:22:02.054 WARN [JvmPauseMonitor] util.JvmPauseMonitor: Detected pause in JVM or host machine (eg GC): pause of approximately 20542ms
     GC pool 'ParNew' had collection(s): count=1 time=0ms
     GC pool 'ConcurrentMarkSweep' had collection(s): count=2 time=20898ms
     2019-06-14T WARN [regionserver60020.periodicFlusher] util.Sleeper: We slept 20936ms instead of 100ms, this is likely due to a long garbage collecting pause and it's usually bad, see http://hbase.apache.org/book.html#trouble.rs.runtime.zkexpired

步骤2: 通常CMS GC策略会在2种场景下产生重大的Full GC ，1. Concurrent Mode Failure 2. Promotion Failure。

   2017-06-14T17:22:02.054+0800:21039.790[FulGC20172017-06-14T17:22:020544+0800:21039.790: [CMS2017-06-14T17:22:02.0544+0800:21041.477: [CMS-concurrent-mark:1767/1782 sec][Times: user=14.01 sys=0.00 real=1.79 secs](concurrent mode fallure): 25165780K->25165777K(25165824K), 18.4242160 secs] 26109489K->26056746K(26109568K), [CMS Perm: 48563K-48534K(262144K), 18.4244700s secs][Times: user=28.77 sys=0.00 real=18.42. secs]]
   2017-06-14T17:22:20:47340800:21058.215:Totalime for which appll cation threads were stopped:184270530 seconds

当初根本能够确认是因为concurrent mode failure模式的CMS GC导致长时间应用程序暂停。

2. 宕机起因剖析

故障因果剖析: JVM触发的concurrent mode failure模式的CMS GC 会产生长时间的stop the world,下层利用因而长时间暂停。进一步导致RegionServer与Zookeeper之间建设的session超时。session一旦超时，Zookeeper就会告诉Master将此宕机RegionServer踢出集群。

什么是concurrent mode failure模式的GC？为什么会造成长时间暂停？假如HBase零碎正在执行CMS回收老年代空间，在回收的过程中恰好从年老代降职了一批对象进来，不巧的是，老年代此时曾经没有空间再包容这些对象了。这种场景下，CMS收集器会进行工作，零碎进入stop-the-world模式，并且回收算法会进化为单线程复制算法，重新分配整个堆内存的存活对象到SO中，开释所有其余空间。很显然，整个过程会比拟漫长。

3. 解决方案

既然是老年代来不及GC导致的问题，那只须要让CMS收集器更早一点回收就能够大概率防止这种状况产生。
JVM提供了参数
XX:CMSInitiatingOccupancyFraction=N来设置CMS回收的机会, N示意以后老年代已应用内存占年老代总内存的比例, 能够将值改得更小使回收更早进行，比方60

另外倡议在解决时关注下零碎BlockCache是否开启了offheap模式，还有JVM启动参数是否正当，JVM堆内存治理是否未正当应用堆外内存。

案例二: 零碎重大Bug导致Regionserver宕机

大字段scan导致RegionServer宕机

景象： RegionServer过程退出

1. 宕机起因定位

步骤1: 日志。先查看GC相干，如果没有再持续搜寻关键字“abort”，查到可疑日志“java.lang.OutOfMemoryError: Requested array exceeds VM limit”

步骤2: 源码确认。看到带堆栈的FALTAL级别日志，定位到源码或者依据在关键字在网上搜寻，确认该异样产生在scan后果数据在回传给客户端时，因为数据量太大导致申请的array大小超过JVM规定的最大值(Interge.Max_Value-2)

2. 故障因果剖析

因为HBase零碎本身的bug，在某些场景下scan后果数据太大导致JVM在申请array时抛出OutOfMemoryError，造成RegionServer宕机

3. 实质起因剖析

造成这个问题能够认为是HBase的bug，不应该申请超过JVM规定阈值的array。另一方面，也能够认为是业务方用法不当。

表列太宽，并且对scan后果没有做列数据限度，导致一行数据就可能因为蕴含大量列而超过array阈值
KeyValue太大，并且没有对scan的返回做限度，导致返回数据后果大小超过array阈值。

4. 解决方案

能够在服务端做限度 hbase.server.scanner.max.result.size 大小
也能够在客户端拜访的时候对返回后果大小做限度(scan.setMaxResultSize)

hbase写入异样

案例：HDFS缩容导致局部写入异样

景象：业务反馈局部写入申请超时异样。此时HBase在执行HDFS集群多台DataNode服役操作。

1. 写入异样起因定位

步骤1: 实践上平滑服役不会造成下层业务感知

步骤2: 排查HBase节点集群监控，发现服役操作期间节点IO负载较高

初步判断写入异样和退服期间IO负载较高有肯定关系。

步骤3:在相干工夫点查看RegionServer日志，搜寻“Exception”，失去要害的2行:

 2020-04-24 13:03:16,685 WARN [ResponseProcessor for block BP-1655660372-10.x.x.x-1505892014043:blk_1093094354_19353580] hdfs.DFSClient: DFSOutputStream ResponseProcessor exception for block BP-1655660374-10.x.x.x-1505892014043:blk_1093094354_19353580 java.io.IOException: Bad response ERROR for block BP-1655660372-10.x.x.x-1505892014043:blk_1093094354_19353580 from datanode 10.x.x.x:50010 at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer$ResponseProcessor.run(DFSOutputStream.java:828)
 2020-04-24 13:03:16,700 INFO [sync.0] wal.FSHLog: Slow sync cost: 13924 ms, current pipelin: [10.x.x.x:50010, 10.x.x.x:50010]

HLog执行sync破费工夫太长(13924ms), 写入响应阻塞。

步骤4: 进一步查看了DataNode日志发现刷盘很慢，有异样信息

2020-04-24 13:03:16,686 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: newsrec-hbase10.dg.163.org:50010:DataXceiver error processing WRITE_BLOCK operation src: /10.x.x.x:55637 dst:10.x.x.x:50010

2. 写入异样起因剖析

多台DataNode同时服役，过程中copy大量数据块会导致集群所有节点的带宽和IO压力陡增。
节点IO负载很高导致DataNode执行数据块落盘很慢，进而导致HBase中HLog刷盘超时异样，在集群写入压力较大的场景下会引起写入沉积超时

3. 解决方案

运维应在业务低峰期执行DataNode服役操作
不能同时服役多台DataNode，免得造成短时间IO压力急剧增大，改成顺次服役。

hbase运维时问题剖析思路

生产线问题是零碎运维工程师的导师。之所以这样说，是因为对问题的剖析能够让咱们积攒更多的问题定位伎俩，并且让咱们对系统的工作原理有更加深刻的了解，甚至接触到很多之前不可能接触到的常识畛域。就像去一个未知的世界摸索一个未知的问题，越往里面走，就越能看到他人看不到的世界。所以生产线上的问题产生了，肯定要抓住机会，追根溯源。毫不夸大地说，技术人员的外围能力很大部分体现在定位并解决问题的能力上。

实际上，解决问题只是一个后果。从收到报警看到问题的那一刻到最终解决问题，必然会经验三个阶段：问题定位，问题剖析，问题修复。问题定位是从问题登程通过肯定的技术手段找到触发问题的实质，问题剖析是从原理上对整个流程脉络梳理分明，问题解决依赖于问题剖析，依据问题剖析的后果对问题进行针对性修复或全局修复。

1. 问题定位

定位问题的触发起因是解决问题的要害。问题定位的根本流程如图：

指标监控剖析。很多问题都能够间接在监控界面上直观地找到答案。比方业务反馈在某一时刻后读提早变得十分高。第一反馈是去查看零碎IO、CPU或者带宽是不是有任何异样，如果看到IO利用率在对应工夫点变得异样高，就根本能够确认读性能降落就是由此导致。虽说IO利用率不是实质起因，但这是问题链上的重要一环，接下来探索为什么IO利用率在对应工夫点异样。

对问题定位有用的监控指标十分多，宏观上看能够分为零碎根底指标和业务相干指标两大类。零碎根底指标包含零碎IO利用率、CPU负载、带宽等；业务相干指标包含RegionServer级别读写TPS、读写均匀提早、申请队列长度/Compaction队列长度、MemStore内存变动、BlockCache命中率等。

日志剖析。对于零碎性能问题，监控指标或者能够帮忙，但对于零碎异样类型的问题，监控指标可能看不到端倪。这个时候HBase零碎相干日志最外围的有RegionServer日志和Master日志，另外GC日志、HDFS相干日志(NameNode日志和DataNode日志)以及Zookeeper日志在特定场景下对剖析问题都有帮忙。

对于日志剖析并不需要将日志从头到尾读一遍，能够间接搜寻相似于“Exception”，“ERROR”，甚至“WARN”关键字，再联合时间段对日志进行剖析。

网络求助。通过监控指标剖析和日志剖析后，运维人员通常都会有播种。也有局部状况下，咱们能看到了”Exception”，但不明确具体含意。此时须要去网络上求助。首先在搜索引擎上依据相干日志查找，大多数状况下都能找到相干的文章阐明，因为你遇到的问题很大概率他人也会遇到。如果没有线索，接着去各个业余论坛查找求教，比方stackoverflow、hbase-help.com以及各种HBase相干交换群组。最初，还能够发邮件到社区求教社区技术人员。
源码剖析。在问题解决之后，倡议通过源码对问题进行再次确认

2. 问题剖析

解决未知问题就像一次摸索未知世界的旅程。定位问题的过程就是向未知世界走去，走得越远，看到的货色越多，见识到的世面越大。然而目迷五色的风景如果不认真捋一捊，一旦他人问起那个中央怎么样，必然会无言以对。

问题剖析是问题定位的一个逆过程。从问题的最实质起因登程，联合零碎的工作原理，一直推演，最终推演出零碎的异样行为。要把这个过程剖析的清清楚楚，不仅仅须要监控信息、异样日志，更须要联合零碎工作原理进行剖析。所以回过头来看，只有把零碎的原理了解分明，能力把问题剖析分明。

3. 问题修复

如果可能把问题的前因后果解释分明，置信就可能轻而易举地给出针对性解决方案。这应该是整个问题摸索中最轻松的一个环节。没有解决不了的问题，如果有，那就是没有把问题剖析分明。

参考: 《HBase 原理与实际》

作者：许佳宾｜Growing运维施行工程师
专一于平台施行、sla治理/工具建设、Devops开发

关于hbase:hbase运维故障案例分析

regionserver宕机

案例一: 长时间GC导致Regionserver宕机

1. 宕机起因定位

2. 宕机起因剖析

3. 解决方案

案例二: 零碎重大Bug导致Regionserver宕机

1. 宕机起因定位

2. 故障因果剖析

3. 实质起因剖析

4. 解决方案

hbase写入异样

1. 写入异样起因定位

2. 写入异样起因剖析

3. 解决方案

hbase运维时问题剖析思路

1. 问题定位

2. 问题剖析

3. 问题修复

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于hbase:hbase运维故障案例分析

regionserver宕机

案例一: 长时间GC导致Regionserver宕机

1. 宕机起因定位

2. 宕机起因剖析

3. 解决方案

案例二: 零碎重大Bug导致Regionserver宕机

1. 宕机起因定位

2. 故障因果剖析

3. 实质起因剖析

4. 解决方案

hbase写入异样

1. 写入异样起因定位

2. 写入异样起因剖析

3. 解决方案

hbase运维时问题剖析思路

1. 问题定位

2. 问题剖析

3. 问题修复

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复