关于nginx:数栈运维案例客户生产服务器CPU负载异常处理

本文整顿自：袋鼠云技术荟 | 某客户生产服务器CPU负载异样解决

数栈是云原生—站式数据中台PaaS，咱们在github和gitee上有一个乏味的开源我的项目：FlinkX，FlinkX是一个基于Flink的批流对立的数据同步工具，既能够采集动态的数据，也能够采集实时变动的数据，是全域、异构、批流一体的数据同步引擎。大家喜爱的话请给咱们点个star！star！star！

github开源我的项目：https://github.com/DTStack/fl…

gitee开源我的项目：https://gitee.com/dtstack_dev…

一、问题背景

一天下午，大家都在忙着各自的事件，忽然小组人员都同时收到了短信揭示，认为是公司发奖金了，很是开心，咋一看“某某客户服务器cpu使用率100%，请及时处理！”原来是告警短信，同时看到钉钉群里收回了大量的告警信息……
二、故障回顾

告警提醒”CPU使用率达到98%” ，关上阿里云控制台，通过云监控发现在下午15:06-16:46左右，云上机器某四台集群服务器cpu使用率稳定较大（先降后升），负载过高，网络流量达到肯定峰值就呈现降落趋势，TCP连接数先是呈现降落趋势，前面呈现回升状态。景象如下图：

CPU先降后升使用率状况：使用率靠近100%

零碎均匀负载先升后降状况：load超过40

网络流入流量：网络带宽流入流出先降后升

TCP 连接数状况：先升后降

三、问题排查过程

1) nginx 日志排查

查看nginx15:06-16:46时间段的日志发现申请订单接口响应工夫较长，超过30s。如下图：

2) 查看fpm-php日志

查看fpm-php日志，在15:06-16:46这个时间段中，fpm-php子过程呈现大量重启，如下图：

同时，nginx谬误日志中发现较多的502,504状态码，如下图：

Nginx 502 状态码：

Nginx 504 状态码：

3) 问题定位剖析

a. 从fpm-php对应的日志里发现大量的fpm-php子过程重启,起因是每个子过程承受的申请数达到设定值。

b. 在大量的fpm-php子过程重启过程中，如果有大量申请进来是无奈响应的，所以Nginx收到大量的502、504报错。

c. 同时在大量的fpm-php重启时会耗费大量的CPU load， PHP不承受业务申请、不转发数据，服务器流量直线降落。

4) 解决论断

通过上述剖析，最终定位确认是fpm-php子过程数配置太低，同时每个子过程承受的申请数max_requests设置太小。无奈应答每天的流量顶峰。
四、优化倡议

依据服务器的CPU/内存配置，适当减少children的数量和max_requests的申请数。如下图，设置一个比拟大的值。

五、优化成果

1）减少fpm-php子过程数以及每个子过程接管的申请能缩小php子过程大量重启频次；

2）可缓解业务高峰期对服务造成的压力，升高业务影响。
六、写在最初

基于互联网在线化形式，袋鼠云为客户提供云上网络和资源布局、利用架构布局、性能优化、监控告警、零碎健康检查、业务大促护航、云上平安经营等全方位的业余运维服务，保障客户业务零碎在云上稳固运行。

关于nginx:数栈运维案例客户生产服务器CPU负载异常处理

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于nginx:数栈运维案例客户生产服务器CPU负载异常处理

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

发表回复取消回复