关于运维:告别救火式IT运维时代如何打造高效运维监控系统

8次阅读

共计 1974 个字符,预计需要花费 5 分钟才能阅读完成。

GoodMai
咱们常说,IT 运维人员要有危机意识,明确有可能呈现哪些问题,呈现这些问题后该如何去迅速解决。

在零碎运维中,为了无效保障系统上线后的失常运行,须要对服务器进行继续的监控,保障其性能的稳固,并通过统计分析每天的各种数据,从而能及时反映出服务器哪里存在性能瓶颈、安全隐患等。

上面咱们就针对如何做好零碎运维的监控工作,提出几点倡议:

一、上线之前的筹备工作

1、首先是备份,做好定时备份策略,备份所有你认为重要的数据,并且定期检查你的备份是否无效、全面;

2、日志轮换,无论你想用哪种轮换形式,管制日志增长防止驱动器已满是你的目标;

3、做肯定的安全措施,如防火墙 iptables 的访问控制,用 denyhosts 避免黑客近程暴力破解;

4、mysql 近程登录权限等等;

5、最初就是服务器、网元设施的监控。

二、监控策略

1、定义告警优先级策略

个别的监控到的后果是胜利或者失败,如 Ping 不通、拜访网页出错、连贯不到 Socket,产生时这些称之为故障,故障是最优先的告警。除此之外,还能监控到返回的延时、内容等,如 Ping 返回的延时、拜访网页的工夫、拜访网页取到的内容等。

利用返回的后果能够自定义告警条件,如 Ping 监控的返回延时个别是 10-30ms 之间,当延时大于 100ms 时候,示意网络或者服务器可能呈现问题,引起网络响应慢,须要立刻查看是否流量过大或者服务器 CPU 太低等问题。

2、定义告警信息内容规范

当服务器或利用产生故障时告警信息内容十分多,如告警运行业务名称、服务器 IP、监控的线路、监控的服务谬误级别、出错信息、产生工夫等。

事后定义告警内容及规范使收到的告警内容具备规范性及可读性。这点对于用短信承受告警内容特地有意义,短信内容最多是 70 个字符,要在 70 个字符齐全晓得故障内容比拟艰难,更须要事后定义内容标准。如:“视频直播服务器 10.0.211.65 在 2012-10-18 13:00 电信线路监控第到 1 次失败”,清晰明了的晓得故障信息。

3、通过邮件接管汇总报表

每天收到一封网站服务器监控的汇总报表邮件,花个两三分钟就大抵理解网站和服务器状态。

4、集中监控和分布式监控相结合

被动 (集中) 监控尽管能不须要装置代码和程序,十分平安和不便,但短少很多粗疏的监控内容,如无奈获取硬盘大小、CPU 的使用率、网络的流量等,这些监控内容十分有用,如 CPU 太高示意有网站或者程序出问题,流量太高示意可能被攻打等。

被动 (分布式) 监控罕用的是 SNMP(简略网络管理协定),通过 SNMP 能监控到大部分你感兴趣的内容。大部分操作系统反对 SNMP,开明治理十分不便,也十分平安。SNMP 毛病是比拟占用带宽,会耗费肯定的 CPU 和内存,在 CPU 太高和网络流量大状况下,无奈无效进行监控。

5、定义故障告警主次

对于监控同一台服务器的服务,须要定义一个次要监控对象,当次要监控对象呈现故障,只发送次要监控对象的告警,其它主要的监控对象暂停监控和告警。

例如用 Ping 来做次要监控对象,如果 Ping 不通呈现 Timeout,示意服务器曾经当机或者断网,这时只发送服务器 Ping 告警继续监控 Ping,因为再持续监控和告警其它服务曾经没有必要。这样能大大减少告警音讯数量,又让监控更加正当、更加有效率。

6、本地监控脚本的规范化部署

对在本地部署的监控脚本要进行对立标准的部署并记录到 KM 零碎。

7、实现对常见性故障业务自我修复性能

实现对常见性故障业务自我修复性能脚本进行对立部署并对修复后故障进行查看告警查看频次不多于 3 次。

8、对监控的业务零碎进行分级

一级零碎实现 7 24 小时告警,二级零碎实现 7 12 小时告警,三级零碎实现 5 * 8 小时告警。

9、监控范畴及指标

实现对负载平衡设施、网络设备、服务器、存储设备、安全设备、数据库、中间件及应用软件等 IT 资源的全面监控治理;

同时主动收集、过滤、关联和剖析各种治理性能产生的故障事件,实现对故障的提前预警和疾速定位;

对网络和业务利用等 IT 资源的性能进行监控,定期提供性能报表和趋势报表,为性能优化及将来零碎扩容提供科学依据。

通常状况下,咱们能够将监控对象这么来分:

1. 服务器监控,次要监控服务器如:CPU 负载、内存使用率、磁盘使用率、登陆用户数、过程状态、网卡状态等。

2. 应用程序监控,次要监控该应用程序的服务状态,吞吐量和响应工夫,因为不同利用须要监控的对象不同,这里不一一列举。

3. 数据库监控,只所以把数据库监控独自列出来,足以阐明它的重要性,个别监控数据库状态,数据库表或者表空间的应用状况,是否有死锁,谬误日志,性能信息等等。

4. 网络监控,次要监控以后的网络情况,网络流量等。

以上四条应该算是最根本的,也是保障网站失常运行必须要晓得的几点内容,这样能力实现咱们常说的“运筹帷幄之中,决胜千里之外”。
好买网(www.goodmai.com)IT 技术交易平台

正文完
 0