关于运维:数栈云MSP运维服务案例某客户生产服务器CPU异常抖动

38次阅读

共计 1084 个字符,预计需要花费 3 分钟才能阅读完成。

一、问题背景

某日袋鼠云运维小哥进行例行运维巡检,通过监控视图发现客户应用服务器 cpu 使用率忽然呈上升趋势。通过专属服务群第一工夫与业务方分割,与业务方确认是否有正在执行的定时工作,或者大范畴拉取账单等业务操作。然而仔细分析了业务日志后,确认过后业务上并没有进行会耗费大量计算资源和网络资源的操作。

二、异常现象

随着时间推移,运维人员收到不同利用零碎主机系统资源占用过高的告警告诉,但客户反馈业务上并没有受到显著影响,且处于业务低峰期。

进一步剖析排查,发现异常实例 cpu 使用率,负载,网络流量,磁盘 IO,TCP 连接数都先后呈现回升趋势,景象如下图:

CPU 使用率:继续 10 分钟维持在 90%

零碎均匀负载:均匀 1 分钟负载超过 25

网络流量:继续 10 分钟高于日常程度

磁盘 IO:每秒写入的字节数迅速回升

TCP 连接数:established 连接数继续 10 分钟回升

三、异样剖析

1) 在排除业务上并没有相干的异样操作后,运维人员进一步剖析了零碎是否有受到内部攻打。通过阿里云云盾平安产品,确认基线查看及流量检测并无异样,业务入口 SLB 流入流出流量也呈失常趋势,能够排除受到内部攻打的可能。

2) 运维人员登录机器持续排查,连贯服务器间接呈现申请被回绝的状况,提醒 connection reset by peer 错误信息。

胜利登入机器后发现有大量 ssh 登入链接。

大量的 sshd 过程引起 cpu 占用过高。

四、异样解决

通过上述剖析,与业务方确认 ssh 连贯客户端是否为外部零碎 IP 地址,最终定位异样实例被内网其余机器歹意破解,进行非法拜访入侵。运维人员第一工夫对异样实例进行复原操作,包含敞开已建设的连贯,革除可疑执行程序,批改 sshd 服务默认端口,重置服务器登录明码,调整平安组拜访策略,查看服务器是否有其它后门等一些列平安加固操作后,主机性能恢复正常。

五、案例总结

从服务器平安防护的角度登程,应将业务部署在云上隔离的网络环境,并批改默认近程服务监听端口,按需凋谢平安组拜访限度。如果业务部署晚期未做相干布局,倡议尽快迁徙经典网络下的服务器到专有网络环境,同时须要定期对服务器进行体检及安全检查,以确保服务器平安。


本文首发于:数栈研习社

数栈是云原生—站式数据中台 PaaS,咱们在 github 上有一个乏味的开源我的项目:FlinkX。FlinkX 是一个基于 Flink 的批流对立的数据同步工具,既能够采集动态的数据,比方 MySQL,HDFS 等,也能够采集实时变动的数据,比方 MySQL binlog,Kafka 等,是全域、异构、批流一体的数据同步引擎,大家如果有趣味,欢送来 github 社区找咱们玩~

正文完
 0