共计 2470 个字符,预计需要花费 7 分钟才能阅读完成。
什么是数智服务?
SREWorks 是一款基于“数据化、智能化”理念构筑的云原生运维平台:以“数智”思维为内核,围绕利用的交付、监测、治理、管制、经营、服务六局部,解决运维的“品质、老本、效率、平安”相干需要。
在 SREWorks 的开源社群以及各类征询中,很多用户对其中的数智能力体现出浓重的趣味。但在目前的开源版本中,SREWorks 是围绕企业应用,提供端到端的残缺数智能力,用户须要将业务利用迁入 SREWorks 云原生体系内,能力进一步体验数智化能力。
因而,为了能让用户疾速体验 SREWorks 的数智能力,领略数智化运维的魅力,SREWorks 团队摸索出了一个轻量化的数智服务计划,心愿能为用户解决比方像 热点机器 等一些常见的运维痛点问题。
什么是热点机器
通常在一个集群中,小局部机器的 CPU 或者内存等指标过高,偏离了正当范畴,体现为以后集群在资源层面呈现机器负载不均的景象,咱们能够认为集群中存在热点机器。在分布式系统里,尤其对于有状态的业务集群,热点机器的存在不仅会影响集群的稳定性,而且还会成为集群性能晋升的瓶颈。也就是说,热点机器是集群稳定性和集群水位晋升的短板。
以实时计算 Flink 集群的 CPU 资源来看,如下图所示。在集群调度层面所有机器的 CPU 资源分配水位是十分均匀的,近乎持平。但在理论的运行过程中,因为调度层面不感知资源的物理应用,使得机器的 CPU 资源应用水位参差不齐,导致局部机器在某一维度的资源疾速达到性能瓶颈,进而造成热点机器。
为了进步业务集群的稳定性,须要找到集群中的这些热点机器,进行热点剖析并解决。然而,寻找热点机器也不仅仅依赖 CPU 指标这一项,内存、吞吐、磁盘等指标也都是断定规范,这么多指标让集群中的机器“横看成岭侧成峰,远近高下各不同”,使得热点机器的定位和剖析也变的辣手。于是 SREWorks 数智服务 来了,咱们以 阿里云日志服务(SLS)智能运维微利用 的模式对外开放,这次首先推出的【机器画像】性能就是要帮忙用户更好的解决热点机器的发现和剖析问题。
目前 SREWorks 数智服务已实现阿里云外围大数据产品的指标数据接入,用户也能够创立本人的服务实例,依照利用的应用标准,接入指标数据。
机器画像
聚类分析是机器画像场景的外围性能,基于算法团队的反对,将 SREWorks 尚未开源的算法:多维度聚类 ,提前凋谢进去。同时依据指标数据进行算法的自适应优化,用户能够不须要感知简单的算法参数,失去精确的聚类分析后果。聚类分析能够反对 超大规模集群(万级别)的机器剖析,次要包含单指标维度的机器热点剖析和多指标维度的机器聚类分析。
单指标维度的机器热点剖析,通过直方图的模式,能够帮忙用户疾速感知集群的机器散布详情,对集群的机器水位散布有一个整体意识。如下图左侧直方图所示,集群的用户 CPU 使用率整体维持在一个中低区间 (<50%) 程度,只有 1% 左右的机器 CPU 使用率超过 80%。
多指标维度的机器聚类分析,不仅内置了十多个典型的指标场景,用户能够疾速进行比照剖析;同时也反对自定义指标抉择,用户能够按需抉择适合的指标,进行聚类分析。
咱们将多指标维度的聚类后果进行降维,把所有机器放到二维立体,即下图左侧的机器聚类散布散点图,通过该散点图,用户能够直观看到集群机器的聚类分组以及离群机器。
两头的雷达图则能够帮忙用户进行各个分组(以及离群机器)之间的聚类指标值的比照,用户能够很容易看出各分组间不同指标的差别,从另一层面来讲,这也很好的解释了分组后果的根据。
离群机器指标统计表和聚类机器指标统计表则依照单机将具体的指标值进行汇总统计(包含像机器指标以后值、机器所属分组同类平均值、机器所属分组同类最大和最小值、机器所属分组同类中位值等),展现给用户,为用户进一步进行热点机器剖析提供数据反对。
此外,机器画像场景还蕴含集群和单机维度的指标汇总和趋势看板,包含 CPU 核数、内存总量、存储总量、CPU 负载、存储使用率、内存使用率以及流量等。
数据接入
最初,咱们来看下如何进行数智服务的数据接入以及如何基于数据标准进行数据存储。
用户须要领有阿里云账号,并开明了 日志服务 (SLS),在 日志利用模块 的智能运维下找到 SREWorks 微利用,创立服务实例。
服务实例创立实现后,能够在实例的数据标准页查看数据标准定义。数据指标次要分成四大类:CPU、MEM、DISK 和 NET,每个分类都定义了一些罕用指标,用户能够按需接入绝对应的指标数据。无关具体的数据接入计划能够查阅 SLS 用户手册时序存储数据接入阐明或者实时计算 Flink 作业开发(SLS 后果表)相干内容。
数智服务的后端存储依赖 SLS 的时序存储(Metricstore,兼容 Prometheus 数据),用户在创立数智服务实例后,零碎会在关联的 SLS Project 我的项目下主动创立默认名称为 sw_node_metrics 时序库,后续的指标数据都须要同步到该时序库。
数据接入实现后,用户就能够借助机器画像场景的能力,进行机器的热点剖析和聚类分析等。
指标格局示例:
__labels__:cluster#$#xyz|hostname#$#sreworks-host-a__time_nano__:1668646740000000__value__:96__name__:cpu_count
复制代码
数据链路示例:
总结
以上就是 SREWorks 数智服务的机器画像场景的次要性能,相较于 SREWorks 提供的端到端的数智能力解决方案,基于 SLS 的 SREWorks 数智服务微利用以一种轻量化、全托管的形式,将 SREWorks 的数智能力进行对外输入,为用户提供更低的接入应用门槛。以后仅凋谢机器画像场景,后续会提供更多的运维场景的数智剖析能力,包含像根因剖析、智能 QA 生成等场景。
SREWorks 开源地址:
https://github.com/alibaba/sreworks
SREWorks 数智服务(日志服务 SLS 微利用) 地址:
https://sls.console.aliyun.com/lognext/app/sre