关于linux:龙蜥正式开源-SysOM百万级实战经验打造一站式运维管理平台-龙蜥技术

57次阅读

共计 3018 个字符,预计需要花费 8 分钟才能阅读完成。

简介:SysOM 集监控、告警、诊断、修复、平安能力于一体的操作系统运维平台。

文 / 零碎运维 SIG

如果你被从天而降的 OOPS 和满屏奇怪的函数弄得满头问号?机器内存明明很大,却申请不进去内存?业务周期抖动,ping 命令偶然工夫很长,但无从下手?程序就这么几行但程序怎么跑 CPU 都跑不高,业务流量上不去?亦或是 CPU 使用率 90% 以上,ps 一下一堆乌七八糟的工作导致你不知如何取舍……

当你试图去社区寻找运维的开源产品时,将彻底从 Linux 收费、美味的地狱掉进天堂,因为你将搜寻到的是一堆业余、反复甚至互相冲突的命令以及千篇一律的监控零碎。这些命令你看不懂,监控零碎也仅仅都是些监控 CPU 使用率、内存使用率、网络吞吐的面板,根本无法解决你的问题,还有 Linux 的低后期投入,带来的是极高的运维老本。

因而,SysOM 来了,SysOM(System Operation&Maintenance)是由龙蜥社区零碎运维 SIG 打造的一站式操作系统运维平台,融入了 SIG 成员的胜利商用运维实践经验,可能帮忙用户在对立平台上实现主机治理、系统监控、异样诊断、日志审计、平安管控等简单操作系统治理。

SysOM 诞生次要是为了解决以下各方面的问题:

  • Linux 社区存在大量的运维管理工具、监控工具、诊断工具,然而工具碎片化重大,单个工具解决单个场景问题,须要用户破费大量工夫钻研该工具能力应用,没有对立的平台为用户提供好的操作系统运维体验
  • 操作系统作为十分底层的基础设施,运维难度大,宕机问题、内存问题、网络问题等各类疑难问题的剖析都须要十分业余的操作系统常识,对于个别运维人员入门门槛过高
  • 个别的开源操作系统都有提供软件安全更新,然而却没有运维平台来对立治理安全漏洞的影响范畴、破绽的发现、破绽的修复

基于以上问题,龙蜥社区 SysOM 应运而生,以后 SysOM 提供了以下 4 方面能力:

  • 对立平台:一个平台解决操作系统运维过程中所须要的多种要害能力。SysOM 将主机治理、监控、诊断、审计、修复、平安能力集于一体,通过 Web 化的界面治理形式,用户能够轻松运维所有机器;
  • 简略易用:提供对立监控零碎,用户无需配置即可多维度的观测到所治理主机的状态;提供对立的诊断系统,用户用过 Web 化的界面即可残缺各类深刻的操作系统问题诊断;
  • 深度剖析:集成 SysAK 工具集深度诊断解决方案,积淀百万级的运维教训,进行内核源码级别的问题分析;
  • 安全可靠:提供对立的平安核心,为用户所治理主机提供全方位的破绽监控、治理、修复,保障系统的安全性;同时提供各类平安加固能力,满足不同利用不同水平的平安要求。

SysOM 介绍

1、架构介绍

SysOM 整体架构分为:前端展现、服务端剖析、客户数据收集。通过对立的前端 Web 将所有运维服务的剖析数据展现给用户:

2、性能介绍

SysOM 主题性能包含以下 6 类:

  • 主机治理

作为 SysOM 管控界面,承当治理节点的增删改查、终端操作系统等性能。你能够通过简略的 Web 界面操作将须要治理的机器增加进治理界面,也能够一键登录到对应的机器进行 shell 操作。

  • 监控核心

监控核心次要为用户全方位的展现操作系统状况,包含但不限于:网络提早、资源应用、工作负载、零碎工作等。它将提供相似基于特定场景(如游戏、金融等)的网络抖动监控 Netinfo 性能,也能提供操作系统全方位根底指标监控。

  • 宕机核心

宕机问题作为操作系统异样的一种极其状况,往往会对用户的利用产生重大影响。SysOM 宕机核心将会为用户提供对立的宕机问题治理,包含宕机监控、已知问题治理、在线剖析、解决方案等能力。通过多维度的宕机治理,升高宕机问题对用户的影响,晋升用户业务的稳定性。

  • 诊断核心

操作系统作为十分底层的软件基础设施,运维难度较高,针对操作系统层面的问题,SysOM 集成了龙蜥社区的 SysAK 能力,为用户提供了全方位的诊断能力,包含:零碎健康检查(即一键诊断)、网络 / 内存 / 存储 / 调度深度诊断,通过全方位诊断帮忙用户剖析操作系统层面的各类问题。

  • 日志核心

日志核心将会为用户提供日志审计的性能,便于管理员监控、管理所负责集群的运维状况。

  • 平安核心

平安问题越来越受到大家的器重,而操作系统蕴含大量的开源软件包,无时无刻不在产生新的安全漏洞。作为操作系统管理员最关怀的是可能及时发现零碎中存在的安全漏洞,并可能疾速修复。SysOM 平安核心为用户提供实时的安全漏洞检测,同时依据操作系统的修复停顿提供白屏修复操作。

应用实际

1、环境筹备

操作系统:Anolis OS 8.4 ANCK 64 位 零碎规格:2 核 8 g

数量:3 台

网络:公网 IP

2、SysOM 部署

2.1 监控组件部署

抉择 Server 节点,执行下述命令部署监控组件

部署目录

mkdir -p /usr/local/sysom/server/monitor/

下载 grafana + prometheus + node-exporter

下载 grafana 到 /usr/local/sysom/server/monitor/

wget https://dl.grafana.com/oss/re… -P /usr/local/sysom/server/monitor/

下载 prometheus 到 /usr/local/sysom/server/monitor/

wget https://github.com/prometheus… -P /usr/local/sysom/server/monitor/

下载 node-exporter 到 /usr/local/sysom/server/monitor/

wget https://github.com/prometheus… -P /usr/local/sysom/server/monitor/

2.2 诊断组件部署

在 Client 节点,执行下述命令部署监控组件

如未装置诊断组件,SysOM 的诊断核心将无奈运行

部署目录

mkdir -p /usr/local/sysom/server/diagnose

下载诊断组件 sysAK

wget https://gitee.com/anolis/sysa… -P /usr/local/sysom/server/diagnose/

装置 sysAK

rpm -idv /usr/local/sysom/server/diagnose/sysak-4.19.91-24.8-1.2.1-1.an8.x86_64.rpm –nodeps

2.3 SysOM 部署

下载 SysOM

wget https://gitee.com/anolis/syso… -P /usr/local/sysom/

cd /usr/local/sysom/

tar -zxvf sysomRelease-20220329115704.tar.gz

cd sysomRelease-20220329115704

装置 Sysom。抉择后面筹备好的机器中的一台作为 SysOM 服务器,如果只有公网 IP,只须要填一样即可(暂不反对离线装置)。

./deploy.sh /usr/local/sysom 内网 IP 公网 IP

3、应用 SysOM

部署胜利后,用户就能够通过浏览器拜访已部署的 SysOM 平台了。间接在浏览器中输出公网 IP(如果只有内网 IP 也能够用内网 IP)。

3.1 登录界面

3.2 零碎界面

3.3 性能应用

本文为 SysOM 系列第一篇,SysOM 性能具体介绍参见后续系列文章,还请继续关注龙蜥公众号不迷路。

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0