关于开源:龙蜥社区成立系统运维SIG重磅开源sysAK系统运维工具集

6次阅读

共计 2121 个字符,预计需要花费 6 分钟才能阅读完成。

简介:零碎运维 SIG 致力于打造一个集主机治理、配置部署、监控报警、异样诊断、平安审计等一系列性能的自动化运维平台。

OpenAnolis 龙蜥社区(以下简称“龙蜥社区”)正式成立零碎运维(System Operation&Maintenance, sysOM)SIG。阿里云和统信软件作为零碎运维 SIG 的联结发起方,将携手龙蜥社区开发者一道,致力在自动化运维畛域构建弱小的生态体系,促成零碎运维 SIG 的相干我的项目疾速部署于宽广的业务场景。

零碎运维 SIG 指标是致力于打造一个集主机治理、配置部署、监控报警、异样诊断、平安审计等一系列性能的自动化运维平台。摸索和实现翻新的 sysAK 工具、高效的 LCC(Libbpf Compiler Collection)开发编译平台及 netinfo 网络抖动监控零碎等,实现零碎问题的疾速上报、剖析与解决,晋升集群的全自动运维效率,与社区合作伙伴一道独特构建大规模集群运维生态链。还记得咱们的非典型程序猿青囊吗?在前几期的云巅论剑微信公众号里,咱们介绍了 sysAK 的 memleak 检测工具和 coredump 瘦身技术以及网络抖动监控利器 netinfo,内部开发者对咱们这个工具集表白了强烈期待,明天,咱们将把零碎运维 SIG 的第一个我的项目,隆重的介绍给大家,并将其正式开源。

什么是 sysAK

sysAK,全称是 system analyse kit(中文名青囊),根底来自于阿里百万服务器的多年运维教训,通过对这些教训进行形象总结出典型场景,针对不同的运维需要提供了一系列工具,造成对立的产品进行服务。工具集蕴含了很多弱小的底层零碎运维能力,这些工具交融到了不同产品的运维平台中,实现高效的自动化运维。

sysAK 诞生背景

在零碎运维过程中,资源监控与利用、问题排查与解决是外围诉求,怎么样做到这些,须要一系列的操作系统底层能力与工具,这些能力与工具目前比拟多的扩散在不同的场景,怎么无效的整合去施展他们的作用以及更不便的在零碎上进行部署,短少一个整体的计划,特地是在古代云计算中心中,集群大规模的机器通常蕴含不同的业务场景、零碎及硬件平台,对这些能力与工具也有着十分高的要求。同时目前很多现有的工具对专业知识要求过高,对一般运维人员来说存在不低的门槛。因而 sysAK 诞生的指标是通过对立的跨平台工具集补齐零碎运维现有能力,并高效易用的发挥作用。

sysAK 技术特点

因为一直倒退和变动的简单业务环境,工具集也须要继续迭代,以冀望笼罩更多的场景,因而心愿通过社区单干,独特打造出这个跨平台的对立工具集。为此,sysAK 在技术实现上采纳容纳的框架:sig 1.png 工具集反对多种语言格局,c、shell、python、go 等,不便不同语言习惯的开发者进行开发,疾速集成;同时针对须要采集零碎内核数据的状况,也同时兼容 Linux kernel module 和 eBPF 两种技术,对内核版本不做限度。当然除了性能外,sysAK 还首提自我资源管制的概念,防止工具运行过程中对系统的资源耗费和产生大的烦扰。

sysAK 外围能力

目前工具集笼罩零碎运维典型场景,包含三大类性能:

1、线上问题剖析诊断:

诊断典型问题如负载异样、网络抖动、内存透露、io 毛刺、性能瓶颈、利用异样等,针对性的提供工具,同时尽量减少工具的专业性,让用户更易使用和解读。

2、资源监控:

针对各种系统资源(CPU、内存、网络、文件 IO、内核治理构造等)提供更精细化的资源监控,帮忙业务运维实现细粒度的运维调度,高效的使用资源。

3、零碎染指:

次要针对 2 种状况提供零碎染指能力:
一是问题剖析诊断时,须要验证特定 case 或模仿注入能力实在确定问题进行修复;

二是总有不可预期的问题会产生,对于业务来说很多问题产生后,怎么疾速复原和止损才是第一要务,对于不是整机异样的问题(零碎级死锁、夯机),提供染指能力对系统进行复原或故障隔离等。

sysAK 布局

sysAK 在龙蜥社区开源,并采取 SIG 共建合作模式,每季度公布新版本更新,蕴含要害 bug 修复和新个性、新能力,并逐渐将产品残缺能力开源。

目前已将代码放到了龙蜥社区进行了托管,先期开源的代码除包含根底开发平台、以及后面大家十分关注的内存透露工具(memleak,见 AK47 所向无敌一文)外,另外还蕴含了一些罕用的工具:loadtask(零碎负载剖析)、runlatency(零碎抖动剖析)、sysmonitor(sys cpu 异样主动数据抓取)、taskctl(过程异样注入)、tracesig(过程信号跟踪)、cpuirq(中断信息剖析)。sysAK 里会逐渐集成和凋谢很多其余弱小的工具,下一阶段凋谢的重点工具包含:

netinfo—网络状态实时监控与剖析,准确剖析网络问题

ossre—积淀阿里云运维知识库,主动剖析疾速辨认已知问题

appscan—过程性能瓶颈疾速界定,业务调优利器,在多个客户现场调优中施展了理论作用

ulockcheck—利用锁剖析工具

sysconf—系统配置差别精准剖析,辅助业务调优与剖析变更导致的问题

sysAK 我的项目地址:https://codeup.openanolis.cn/…

原文链接
本文为阿里云原创内容,未经容许不得转载。

正文完
 0