大数据运维的挑战—如何保障集群稳固与运行效率
企业级大数据集群通常领有海量的数据存储、日常运算成干上万的计算工作,须要满足各类下层业务的计算需要。对于这类集群的运维往往充斥着挑战:海量的数据、庞杂的组件以及组件之间简单的依赖关系、对于时效要求的的运算工作,都会晋升运维难度。作为撑持平台,大数据集群的稳定性和运行效率,会间接影响到公司业务的失常运作和倒退。
集群管理员往往对整体集群做好了监控运维体系,对于大数据集群,简略的监控运维体系可能帮忙管理员在遇到故障的时候定位问题。但对于整体集群的运行效率,集群的状态,通过单纯的监控指标很难给出一个全面的解答。
对于大数据集群,管理员以及 CIO 等更关注以下的内容:
- 集群内的节点的运行状态和资源应用情况;
- 运行在集群上的服务组件的状态监控和异样解决,包含 YARN、HDFS、Hive 和 Spark 等;
- 计算工作运行状况和执行效率;
- 整体集群的衰弱水平和如何改良。
面对运维挑战,EMR 重磅推出:智能运维诊断系统(EMR Doctor)
为了晋升大数据集群运维效率,辅助 EMR 用户欠缺集群监控体系。E-MapReduce 推出面向开源大数据集群的智能运维诊断系统 E-MapReduce Doctor(简称 EMR Doctor)。EMR Doctor 作为开源大数据集群的管家,会主动每日巡检集群。集群管理员只须要定期查看健康检查报告,并且依据报告中的倡议对集群做相应的优化调整,即可全局理解集群的健康状况和动静走势,并放弃集群的衰弱度。
如何应用 EMR Doctor
- 进入 EMR 控制台健康检查页面。
<!—->
-
- 登录 EMR on ECS 控制台。
- 在顶部菜单栏处,依据理论状况抉择地区和资源组。
- 在 集群治理 页面,单击指标集群的 集群 ID。
- 单击上方的 健康检查 页签。
- 在健康检查页面,您能够看到以后集群的健康检查报告(T+1)。衰弱状态列显示了该集群的衰弱度,您能够点击查看报告进入检查报告页面。
- 健康检查报告中蕴含集群计算资源的总体剖析
- 健康检查报告中蕴含计算工作从各个维度的排名并给出工作调优倡议
- 健康检查报告中蕴含对集群存储的总体剖析,以及大小文件和冷热数据的详细分析
- 健康检查报告次要剖析内容如下,更具体阐明请参见 查看健康检查状态和报告
计算资源剖析 | 概述 | 状态概述 | |
---|---|---|---|
须要关注的问题 | |||
计算根底信息 | 集群计算评分 | ||
集群算力内存时 | |||
集群算力 CPU 时 | |||
计算引擎内存算力时 | |||
计算工作信息 | 计算工作算力内存时剖析 | ||
计算工作评分排行榜 | |||
Spark | Spark 工作算力剖析及调优倡议 | ||
Tez | Tez 工作算力剖析及调优倡议 | ||
MapReduce | MapReduce 工作算力剖析及调优倡议 | ||
HDFS 存储资源剖析(需开启存储资源信息采集开关) | 概述 | 状态概述 | |
须要关注的问题 | |||
HDFS 根底信息 | HDFS 存储资源应用趋势 | ||
文件总数随工夫变化趋势 | |||
评分趋势 | |||
HDFS 文件大小散布 | HDFS 文件大小比例 | ||
一级目录空文件个数 Top10 | |||
一级目录极小文件个数 Top10 | |||
一级目录小文件个数 Top10 | |||
一级目录中等文件个数 Top10 | |||
一级目录大文件个数 Top10 | |||
HDFS 冷热数据分布 | HDFS 冷热数据 | ||
一级目录极冷数据大小 Top10 | |||
一级目录冷数据大小 Top10 | |||
一级目录温数据大小 Top10 | |||
一级目录热数据大小 Top10 | |||
HIVE 存储资源剖析(需开启存储资源信息采集开关) | 概述 | 状态概述 | |
须要关注的问题 | |||
Hive 根底信息 | 存储趋势 | ||
文件数量趋势 | |||
评分趋势 | |||
Hive 库信息 | 库存储排名 | ||
库文件总数排名 | |||
库评分 | |||
Hive 表文件大小散布 | Hive 表文件大小散布比例 | ||
Hive 表空文件个数 Top10 | |||
Hive 表极小文件个数 Top10 | |||
Hive 表小文件个数 Top10 | |||
Hive 中等文件个数 Top10 | |||
Hive 大文件个数 Top10 | |||
Hive 冷热数据分布 | Hive 冷热数据分布 | ||
Hive 表极冷数据大小 Top10 | |||
Hive 表冷数据大小 Top10 | |||
Hive 表温数据大小 Top10 | |||
Hive 表热数据大小 Top10 | |||
Hive 表存储格局散布 | Hive 表存储格局散布 | ||
Hive 表 TextFile/Parquet/ORC 格式文件剖析 |
如何开明 EMR Doctor
开明及应用征询问题请见 EMR Doctor 常见问题
- EMR-3.39.0 之前版本、EMR-5.5.0 之前版本,EMR-4.10 之前版本须要手动开明健康检查性能,请参见 开明指南
- EMR-3.39.0 及更高版本,EMR-5.5.0 及更高版本,EMR-4.10 及更高版本默认提供健康检查性能,无需手动开明。