关于运维:数栈云MSP运维服务案例某客户生产服务器CPU异常抖动

一、问题背景

某日袋鼠云运维小哥进行例行运维巡检，通过监控视图发现客户应用服务器cpu使用率忽然呈上升趋势。通过专属服务群第一工夫与业务方分割，与业务方确认是否有正在执行的定时工作，或者大范畴拉取账单等业务操作。然而仔细分析了业务日志后，确认过后业务上并没有进行会耗费大量计算资源和网络资源的操作。

二、异常现象

随着时间推移，运维人员收到不同利用零碎主机系统资源占用过高的告警告诉，但客户反馈业务上并没有受到显著影响，且处于业务低峰期。

进一步剖析排查，发现异常实例cpu使用率，负载，网络流量，磁盘IO，TCP连接数都先后呈现回升趋势，景象如下图：

CPU使用率：继续10分钟维持在90%

零碎均匀负载：均匀1分钟负载超过25

网络流量：继续10分钟高于日常程度

磁盘IO：每秒写入的字节数迅速回升

TCP 连接数：established连接数继续10分钟回升

三、异样剖析

1) 在排除业务上并没有相干的异样操作后，运维人员进一步剖析了零碎是否有受到内部攻打。通过阿里云云盾平安产品，确认基线查看及流量检测并无异样，业务入口SLB流入流出流量也呈失常趋势，能够排除受到内部攻打的可能。

2) 运维人员登录机器持续排查，连贯服务器间接呈现申请被回绝的状况，提醒connection reset by peer错误信息。

胜利登入机器后发现有大量ssh登入链接。

大量的sshd过程引起cpu占用过高。

四、异样解决

通过上述剖析，与业务方确认ssh 连贯客户端是否为外部零碎IP地址，最终定位异样实例被内网其余机器歹意破解，进行非法拜访入侵。运维人员第一工夫对异样实例进行复原操作，包含敞开已建设的连贯，革除可疑执行程序，批改sshd服务默认端口，重置服务器登录明码，调整平安组拜访策略，查看服务器是否有其它后门等一些列平安加固操作后，主机性能恢复正常。

五、案例总结

从服务器平安防护的角度登程，应将业务部署在云上隔离的网络环境，并批改默认近程服务监听端口，按需凋谢平安组拜访限度。如果业务部署晚期未做相干布局，倡议尽快迁徙经典网络下的服务器到专有网络环境，同时须要定期对服务器进行体检及安全检查，以确保服务器平安。

本文首发于：数栈研习社

数栈是云原生—站式数据中台PaaS，咱们在github上有一个乏味的开源我的项目：FlinkX。FlinkX是一个基于Flink的批流对立的数据同步工具，既能够采集动态的数据，比方MySQL，HDFS等，也能够采集实时变动的数据，比方MySQL binlog，Kafka等，是全域、异构、批流一体的数据同步引擎，大家如果有趣味，欢送来github社区找咱们玩~

关于运维:数栈云MSP运维服务案例某客户生产服务器CPU异常抖动

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于运维:数栈云MSP运维服务案例某客户生产服务器CPU异常抖动

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复