共计 1107 个字符,预计需要花费 3 分钟才能阅读完成。
咱们在 v3.10 的企业版中新增了主动巡检性能,对于设计这个性能的初衷以及成果、客户收益简略给大家介绍一下。
主动巡检性能介绍
该服务具备以下三个方面的监控和查看:
服务器监控状态: 查看服务器 CPU/ 内存 / 磁盘状态、零碎工夫及 qume 版本信息,并且依据查看后果列出问题清单及倡议计划
MySQL 衰弱状态: 对数据库进行可用性查看、异样终止的查问数几高可用状态查看,并且依据查看后果列出问题清单及倡议计划
k8s 健康检查: 对平台 k8s pods/ nodes 状态、证书状态及无用镜像列表进行查看,并主动删除无用镜像信息
设计初衷
咱们会定期对现有所有客户的环境进行巡检,帮忙客户及时发现零碎瓶颈或者潜在危险,个别每个客户从登录环境到输入巡检报告,大略须要一天工夫。随着客户越来越多,巡检工作带来的工夫老本就不容忽视,咱们心愿可能通过自动化产品化的形式来改善巡检工作。
性能上线前后的成果比照
上线前
技术支持编写 shell 脚本,登陆客户服务器上,通过 ansible 执行 shell 的命令的输入后果,查看服务器监控状态、MySQL 和 k8s 集群状态。
依据脚本输入信息,手动绘制巡检报告
上线后
主动巡检性能的成果:管理员登录到控制台,点击【巡检】按钮,大略 5 分钟左右的工夫(具体工夫取决于服务器的规模),咱们就能够在零碎查看巡检报告的 PDF,如下图所示。
客户收益
第一,平安: 产品化后的巡检性能,全程不须要技术人员的参加,更不须要间接登录客户的服务器环境等,这对客户来说很平安,不会带来其余的危险。
第二,问题辨认和解决: 环境巡检能够帮忙发现平台中的问题和隐患,如服务器磁盘空间有余,负载过高、服务异样等。通过及时辨认这些问题,能够采取相应的措施来解决它们,进步零碎的可靠性和稳定性。
第三,性能优化和容量布局: 通过巡检平台,能够收集对于平台零碎应用状况、资源利用率和负载模式的数据。这些数据能够用于性能优化和容量布局,帮忙组织正当布局资源投入,并满足将来的业务需要。
致谢
主动巡检性能是在盛银消金运维团队的倡议和一直反馈下才得以上线和欠缺。在此对盛银消金运维团队示意衷心的感激。
以上是文章的次要内容,作为交融云 / 多云治理 / 公有云 /FinOps 厂商,云联壹云会继续关注这些畛域的动静,分享相干的信息和技术,能够通过的官网(yunion.cn)或关注的公众号(云联壹云)来获取最新的信息,感激大家的工夫。
原文地址:https://www.yunion.cn/article/html/
举荐浏览
企业面对 FinOps,到底能做些什么?总结了 4 个方面
云联壹云交融云治理平台的 10 大利用场景
Flexera 2023 云状态报告解读
新品公布 | Cloudpods 3.10 版本上线!