关于运维自动化:数字化时代下智能运维全栈监控解决方案及案例盘点

45次阅读

共计 6296 个字符,预计需要花费 16 分钟才能阅读完成。

云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的 AIOps 开发者生态。

引言

近年来,随着互联网以及挪动设施的遍及,数字化转型减速并受到各大企业追捧。与此同时,非 IT 畛域的倒退报告——毕马威商业剖析报告中提到的 10 个行业中,大多也都提到了数字化转型与数字化转型减速。随着数字化的不断深入,寰球 IT 曾经进入了新的”ABCD”时代,即 AI(人工智能)、Bigdata(大数据)、cloud computing(云计算)与 Digital(数字化)。这些技术方向撑持着企业数字化的过程,让 IT 即业务成为了企业倒退的方向。大量业务向“互联网 +”与数字化方向迁徙,企业 IT 规模正在高速扩大,运维人员每天都要面对数以万计的运维对象。这种现状正好阐明了“当下是运维最好的时代,也是运维最坏的时代”。

智能运维面临的问题与挑战

首先,如何了解“当下是运维最好的时代,也是运维最坏的时代”这句话?最好的时代,是因为运维的重要性被进步到了空前高度。IT 零碎撑持着企业业务的运行,很多 IT 零碎运行状况的好坏,间接影响了企业外围业务倒退;最坏的时代,则是因为咱们面对的零碎空前简单,云计算,容器技术,微服务架构的逐渐遍及,让咱们过往几十数百台主机的零碎规模,一跃变为成千上万的运维对象。各行各业龙头企业的 IT 规模曾经与运维人员的比例造成了绝大差距,这也给运维带来了空前的影响。

智能运维场景系统性剖析

接下来,让咱们从运维人员日常会遇到的场景登程,看看运维人员的次要工作内容。首先是运维的范畴,它围绕“指标”、“日志”、“调用链”这三个根底指标以及“告警”这个派生指标进行钻研。

Peter Bourgon 在 2017 年“Distributed Tracing Summit”上对运维面对的 Logging、Metrics、Tracing 进行了系统性的论述,失去运维界的宽泛认可。依据其形容,运维的场景分为“一元场景”、“二元场景”、“转化场景”三个大类。

此外,运维人员每天都要面对的指标:比方容量指标,CPU、内存、磁盘的使用率。无论是“指标”、“日志”还是“调用链”,咱们对它进行监控,设定阈值,它们都会产生“告警”,也就是说“告警”是前三者的派生指标。指标、日志、追踪,依照他们的组合和转换关系,就造成了一元、转化和二元的运维场景。

  • 一元场景

指标:可聚合的逻辑计量单元

日志:对离散的不间断的事件的一种记录

追踪:单次申请范畴内的所有信息,即调用链信息

  • 转化场景

日志→指标:通过日志取得指标数据

日志→追踪:通过对日志的聚合和转化失去追踪

追踪→指标:通过调用链的剖析取得调用范畴内的指标

指标、日志、追踪→告警: 多个源头产生的告警

二元场景

日志 + 指标:可聚合 / 合成的事件

日志 + 追踪:一个调用周期内的事件

追踪 + 指标:一个调用周期内的指标

智能运维建设思路

面对上述的这些挑战,云智慧的应答解决思路次要有以下 4 条:

  1. 全栈式监控,统一化治理。次要是从基础架构、利用性能、用户体验构建等方面,从底层设施到下层业务造成全面监控体系,被动对业务、基础设施的运行状态进行全面感知。
  2. 数据对立采集,建设运维数仓。对客户现有工具的数据进行对立收集和纳管,将数据标准化、场景化、共建、共享、共用。
  3. 建设规范,构建运维体系。通过对云上云下的离散资源数据、关系简单的逻辑数据、外围指标数据,依照业务层级构造进行关联,造成资源图谱和指标体系。
  4. 数据可视化,数据价值化。次要是通过采集到的告警、指标、性能、资产资源的数据进行关联交融,造成不同驾驶分仓,出现不同数据场景。如:零碎运行综合态势、业务变化趋势等。

解决方案与性能场景介绍

解决方案整体架构

基于以上运维解决思路,云智慧的整体解决方案如下图所示,整个解决方案的整体架构次要分为三大部分:

  1. 左侧局部:整个产品的设计参考了相干行业的体系指南,包含:国际标准 ISO20000、ITSS、ITIL4、业务连续性性能治理、DevOps、AIOps 等。
  2. 两头局部:是整个解决方案的外围。底层是咱们监控工具层,负责监控数据的采集;中间层次要是数字运维中台,次要是对立体化工具采集的数据进行解决;最上层为智能运维场景。平台的整个设计思路是运维通用能力下沉,Pass 平台化;业务场景化上浮,Saas 化。
  3. 右侧局部:次要是平台可能提供与第三方无缝集成的能力,集成包含配置、性能、告警、日志数据等。

性能场景介绍

接下来,咱们将对根底监控场景、云化监控场景、智能告警、交融场景的剖析以及涵盖数据价值化等一体化运维相干场景进行具体介绍。

  • 全栈式监控,多维度笼罩

云智慧全栈式监控场景可能对 IDC 基础设施到下层业务进行全方位监控。包含面向机房能源环境设施、服务器硬件、操作系统、网络、利用、业务等运行衰弱度状态、性能情况进行实时监控与治理。

平台可能提供有代理(agent)、无代理(snmp、wmi、syslog、jdbc 等协定的形式)来监控形式,当代理采集的监测指标无奈满足用户的监控需要时,用户能够通过云智慧产品提供的凋谢采集能力,开发相干指标来满足个性化的监控需要。

目前云智慧全栈式监控中用户的数据中心都是两地三核心模式。此外,为了满足业务连续性的须要,还提供分布式、跨核心的部署,来满足用户多核心监管须要。

  • 主动网络拓扑,疾速会诊故障

在网络监控场景中,不得不提的就是主动发现拓扑能力。当故障产生时,它能够帮忙网络运维人员疾速对故障进行诊断。首先运维人员能够基于 ICMP、ARP、SNMP 以及 LLDP 通过一键发现迅速地将以后网段中的数据进行实时收集;故障定位次要是通过告警事件与故障设施进行关联,便于网络运维人员迅速发现问题、定位问题;故障剖析是借助已发现的拓扑,查看故障设施的告警详细信息,以及以后指标情况,综合各方面信息彻底解决故障。

  • 通过流量,精准剖析业务的可用性

网络流量监控场景次要是通过网络流量对业务的可用性进行精准剖析。流量监控次要是依据网络五元组(源 ip、源端口、指标 ip、指标端口、协定)针对业务及利用突发的异样大流量,及时发现网络性能异样,施行预警。另一方面,通过网络流量,用户能够剖析企业网络流量的利用率是否正当,也给网络前期扩大提供根据,防止投资的节约。

实时监控网络配置, 让网络配置过程合规化

网络日常运维工作中,为解决网络的一些问题(如:零碎的降级、打补丁、网络日常保护等),运维人员须要进行相干的备份操作和变更前后的网络配置文件查看动作。因而,这里说的网络配置场景就是解决运维人员在进行上述操作前后文件失败时可能及时预警,并告诉相干运维人员发现变更异样状态。

同时提供配置文件的回溯查看性能,通过界面查看变更前和变更后文件内容,极大的晋升了网络运维人员的日常工作效率。

下图中红色和黄色局部就是两次不同工夫的配置文件的比照,用户能够从上百行甚至上千行的文件中迅速找到,变更前后不一样的中央。(黄色)变更前的 IP 是 192.168.1.104,(红色)变更后 IP 是 192.168.1.56,无需通过登录设施查看。

  • 正当布局 IP 地址应用,进步网络安全

网络管理的第四个场景,那就是 IP 地址治理。通过 IP 地址治理性能能够帮忙数据中心正当的调配网络地址的日常应用和长期布局,从而进步网络安全性。

定时扫描,精准监测:通过工具定期扫描子网,提供子网中 IP 地址的可用性状态。用户能够查看某个特定 IP 的状态是保留还是可用。该工具承受多个子网导入,帮忙扫描整个网络,获取 IP 地址的状态。

可视界面,实时查:基于可视化的界面中,以不同的色彩辨别 IP 地址的应用状态,包含:应用中、未应用、治理 IP、保留 IP 等。

  • 关注业务的连续性,洞察用户实在体验

对于业务连续性监测场景,云智慧次要是通过端到端的链路式监测形式,被动感知用户的实在体验。

  • 端到端链路追踪,被动感知业务状态:全面实时获取服务端性能数据,通过利用、组件、集群、容器及代码等逐层深入分析,帮忙企业定位剖析本身服务端性能问题。
  • 全方位被动监测,理解用户体验:实时感知终端用户是否遭逢了解体、卡顿、页面加载迟缓等体验不佳问题。
  • 疾速响应,一键剖析:可实时剖析用户操作数据,预测用户体验评分,帮忙运维团队更高效、精准地进行用户投诉剖析,晋升用户满意度。

  • 可观测性 云原生 监测,让瞬息万变运维简单化
    随着业务云化的不断深入,k8s 和容器化对业务的伸缩性和扩展性的要求越来越灵便。当故障产生时,从 IT 运维团队、网络团队到业务团队均在故障排查时变得越来越艰难。基于可观测性的云原生监测,次要是通过收集业务日志、监测指标以及业务链路关系等相干数据进行交融,构建业务拓扑链路。此外,还能够疾速对故障进行剖析、定位、疾速复原业务,保障业务的稳定性、安全性。例如:从右侧视图中,咱们能够看出,用户在 app 端产生故障时,通过业务拓扑链路,发现是在“深圳的集群节点产生故障”,集群对应的 IP 是 192.168.100.50 这个服务产生故障。同时能够再次下钻剖析,看看具体是哪个指标引起的故障。

  • 云原生 的微服务监测,玩转利用弹性伸缩

当初业务的连续性的要求高,大多数新业务的开发的技术都是基于微服务架构,通过 k8s 编排能力,在业务高峰期可能实现动静扩大,弹性伸缩。那么同时给运维工作也带来了很多难度。

企业云之后对微服务的监测,一方面次要是通过 K8s 的自带组件,cadvisor、kube-stat-metrics 进行数据采集,另一方面则是通过开源计划 promethues 形式采集数据,最初通过 zabbix 调用 promethues、cadvisor、kube-stat-metrics API 获取数据进行对立监测与治理。

展示方面次要通过目前比拟支流的 grafana 插件对监控的指标进行展示,包含:pod 可用性、pod 状态、node 状态、node 的 cpu、men、IO、网络可用性、服务可用性等相干指标进行监控。

拓扑是依据开源 Weave Scope 插件,会主动构建利用和集群的逻辑拓扑。比方 pod、容器、服务、Pod 以及 Pod 之间的依赖关系。

此外,数据展现能够利用开源的 grafana 工具进行各种模式的展现,来满足不同用户对数据分析的须要,同时能够利用云智慧飞鱼平台(一款可视化的工具)对数据进行大屏可视化。

  • 事件处理流水线,疾速实现全生命周期治理

告警是构建全面监控能力不可或缺的一部分,尤其是当下的用户环境中个别不仅仅只有一种监控工具,而是多种监控工具的整合。为了实现告警事件统一化、智能化的治理,云智慧的智能告警平台对各类监控工具事件进行整合,同时通过五大流水线的过程(告警丰盛、告警压缩、告警克制、告警告诉、事件处理)来疾速实现事件全生命周期治理。

  • 海量告警智能剖析,一站式故障排查和定位

下图为一站式智能告警故障排查和定位的场景,通过图片咱们能够看到 oracle 数据产生了故障,由此针对海量的告警进行收敛辨认,发现了对于 oracle 表空间、过程、实例、死锁的 5 条告警。同时能依据告警相干的根本规定,通过主动学习的算法能力,如:集群合并、IP 合并等把同一时间与该告警相干的告警进行了聚合。最初通过告警与指标关联,查看以后该告警的指标趋势,发现可能是死锁引起的问题。因而,通过对告警的智能剖析,咱们能够防止有效告警、告警风暴的产生,疾速对故障的排查和定位,全面晋升告警治理能力。

  • 一键化设置,疾速躲避有效告警

在日常运维中,企业信息中心常常会因为打消故障或者是问题对软硬件降级等进行变更。此时,往往会产生已监控的设施在变更窗口期会产生大量的告警,并且这些告警是运维人员已知或者是可预见性的。与此同时,如果有实在的告警产生,往往会被吞没,产生重大事故。为了避免相似的问题,云智慧能够提供灵便的保护期策略,如依据告警源、IP、主机名、级别等条件设置变更窗口的工夫,来杜绝以上问题的产生,增强变更的安全性。

  • 依靠数据指标为根底,打造业务运维体系

交融场景次要有两个维度,一个是指标体系治理,另一个是基于配置资源图谱。在 IT 倒退的过程中,用户信息化通过多年欠缺曾经实现了大量的工具平台建设,然而因为工具数据之间没有交融,只能单方面反映问题,因而不能充分发挥数据的作用。通过云智慧的指标体系方法论和基于实际的衰弱度模型,咱们能够对各工具数据进行交融,构建业务的分层画像,为咱们的业务衰弱度进行实时评分,多维度综合剖析(拓扑、指标、告警)。此外,依靠数据指标为根底,打造业务的运维体系,可能对故障进行实时预警、实时剖析以及及时处理。

  • 构建配置资源图谱,助力故障本源因剖析

配置资源图谱故障场景次要是依靠 CMDB 的层级拓扑对故障 CI 进行定位。买通事件与 CMDB,把 CMDB 中的相干 CI 要害属性信息(如 IP 地址、主机名、利用标识、负责人、电话、资源的所属地位等)丰盛到告警事件中,增强告警的易读性和准确性。同时通过告警生成工单,在处理的过程中,关联 CI 保障数据的准确性,对故障进行闭环治理,增强 CMDB 配置数据的流动性和唯一性。其指标就是通过配置资源图谱拓扑可视化能力,帮忙运维人员对故障进行根因剖析、故障主动处理,疾速复原业务。

  • 数据可视化,让数据不再沉睡

采集的大量的数据,如何做到数据场景化,数据价值化呢?在这里,次要依靠于云智慧的运维数据中台,通过对监控零碎数据、告警事件数据、业务零碎数据、资产配置等数据进行交融与关联,同时基于客户的业务特点,和 IT 运维人员的关注点,进行展现。下图为某航空公司的大屏数据展现成果,从机房能源环境监控、综合业务零碎运行资源监控到航空经营剖析平台,进行全方面数据展现。

  • 平台自服务, 解决后顾之忧

目前云智慧平台领有欠缺的自我监控服务能力。不仅有自我监测能力,此外,还有一键部署、主动巡检、报告推送、动静扩大的能力等。一方面平台可能对产品本身所部署的组件运行状态进行全面查看,另一方面可能对巡检的后果进行报告推送。此外,平台内置利用商店,除了平台的一键自动化部署外,尤其是服务异样时,还反对动静扩大,满足客户业务的动静的调整。

价值与劣势

  • 计划劣势:经营数据,价值共创

  • 产品劣势:不是工具的堆砌,而是运维的将来

案例分享

  • 国企 一体化智能运维我的项目案例

  • 某地产一体化经营我的项目案例

  • 某银行智能运维平台我的项目案例

写在最初

近年来,在 AIOps 畛域疾速倒退的背景下,IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在 2021 年 8 月公布了 AIOps 社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。

社区先后 开源 了数据可视化编排平台 -FlyFish、运维治理平台 OMP 、云服务治理平台 - 摩尔平台、 Hours 算法等产品。

可视化编排平台 -FlyFish:

我的项目介绍:https://www.cloudwise.ai/flyF…

Github 地址:https://github.com/CloudWise-…

Gitee 地址:https://gitee.com/CloudWise/f…

行业案例:https://www.bilibili.com/vide…

局部大屏案例:

您能够增加小助手(xiaoyuerwie)备注:飞鱼。退出开发者交换群,可与业内大咖进行 1V1 交换!
也可通过小助手获取云智慧 AIOps 资讯,理解 FlyFish 最新进展!

正文完
 0