乐趣区

关于运维自动化:数字化时代企业运维面临现状及挑战分析解读

云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的 AIOps 开发者生态。

引言

近年来,随着 IT 互联网的迅速倒退,数字经济与数字生存对人们日常生活的影响也逐步加深。如下图右下角所示,局部 APP 曾经扭转了人们的衣食住行。此外,新冠疫情在寰球的暴发也使得寰球数字化倒退的速度失去了进一步晋升。在面对疫情不确定性挑战中,各个行业都意识到了数字化转型对企业的重要性。下图 2021 年联合国公布的寰球数字经济报告中更是粗浅地指出了数字经济以及数字资产对各个国家的影响。

数字化运维现状与剖析

数据分类与利用场景

通过云智慧的总结与梳理,从数据的角度,运维数据大抵能够分为以下 7 类:

  • 指标类数据:即服务器运行时以后的 CPU 利用率、可用内存容量、磁盘 IO 速率、网络传输速度等;
  • 日志类数据:即各类软硬件输入的记录零碎运行过程中某一个工夫节点产生的一些事件的文件;
  • 警报类数据:即各类软硬件基于本身定义的谬误或故障,收回的各级警报信息,某些类型的警报也是日志的一部分;
  • 配置类数据;更多的是指运维对象的一些绝对动态的属性信息。常见的就是保留在 CMDB 外面的 CI 项属性信息;
  • 关系类数据:业务零碎的横纵拓扑,运维对象之间的关联关系数据。常见的有相似于根底监控中基于 snmp 等技术发现的拓扑信息、apm 输入的调用链信息,基于 open tracing 标准或用户本人的业务标记生成的日志输入的调用链以及 CMDB 外面保留的人工生成或基于各类根底监控技术发现的关系数据;
  • 工单类数据:基于日常运维过程生成的各类运维工作数据,例如服务申请工单,事件工单,问题工单,变更工单等等类型的工单数据;
  • 常识类数据:在日常运维工作中积攒的 IT 运维常识数据,如知识库中的通用 IT 技术常识,工单积淀的业务运维常识等。

上述数据类型可能撑持以下运维场景:

  • 日常监控:通过 IT 算法能够对指标数据进行各种智能的阈值设定,缩小手动阈值设定和变更所导致的工作量,此外,还能够缩小固定阈值可能造成的错报或误报警。与此同时,还能够通过算法辨认出日志的常量和变量模式,将某种典型谬误的常量模式设置为报警,以丰盛告警源,增强系统监控维度。另一方面,还能够通过算法把海量的警报数据进行压缩,并依据一系列规定生成大量的告警事件,从而升高告警风暴,使运维人员集中精力应答要害事件。这一类场景能够称为低配置化 IT 监控及告警。此外,通过预测算法,能够对指标的走向趋势进行预测,并依据日志的模式组合进行剖析,从而通过捕获某些故障产生之前的特色进行这一类故障的预警。
  • 事件处理及问题治理:通过整合系统间的指标数据、日志数据、警报数据以及关系数据,再辅以可视化技术及 AI 技术,就能够很好的为用户展示有向无环的 IT 逻辑调用关系,从而帮忙运维人员在产生故障时,疾速定位系统故障的首因地位,并联合过往工单和常识数据,肯定水平上辅助用户来进行根因剖析。并为用户举荐处理策略。
  • 容量治理:通过指标数据的预测进行各类 IT 资源容量预测,并依据各类数据转化的用户体验指标联合容量信息来进行 IT 资源利用率的评估。
  • 服务度量:通过零碎运行的指标警报等数据来生成零碎的用户体验得分,同时能够依据工单数据来统计运维团队的服务效力,更能够联合这两类数据来进行 IT 服务的价值评估。

应答策略比照剖析

充分利用运维大数据,可能帮忙运维组织更好的撑持企业 IT 业务的高质量运行。然而,运维大数据与其余大数据并非完全相同,企业施展运维大数据的价值还须要理解它的特色,以及须要面临的挑战及其应答策略。运维大数据区别于其余大数据的特色次要包含以下方面:

  • 数据源比拟庞杂。其余畛域的大数据,数据源往往来源于具体的业务零碎,然而运维大数据不同,运维大数据的数据源来自各个运维对象,这个数据源的规模就变得十分宏大,而且不同的运维对象数据接入的形式差异很大。例如服务器硬件的相干指标信息就能够来自多种采集形式,例如 ipmi、snmp 或 ssh。面对如此庞杂的数据源,运维大数据的平台必须可能实现对这些数据源的对立治理,要可能灵便的适配和接入数据源。
  • 数据规范十分不对立。不同类型运维对象的指标维度,输入数据的格局以及指标单位等标准大都不雷同。因而须要比拟灵便的 ETL 能力来应答简单的数据处理工作。
  • 强时序性。强时序性次要体现在两个方面。一,强时序性数据的先后关系十分重要,数据颠倒会使数据所表白的含意齐全失真;二,强时序性的数据随着工夫的流逝,其价值将急剧下降,为了最大水平转化数据价值,强时序性数据必须可能进行低提早的数据处理和计算,将数据产生到展示的两头工夫尽可能缩短。同时,还须要反对数据应用时的时序性,从而将事件按照事件程序精确的还原进去。
  • 高吞吐,高并发。这个特色很直观,因为运维对象数量多,因而在数据采集时必须反对高并发,又因为自身数据总量大,因而在高并发的根底上,高吞吐也十分重要。因而,运维大数据的根底框架,必须反对高并发,高吞吐的数据处理存储及剖析能力。
  • 关联关系简单。运维大数据利用场景中最重要的局部之一就是运维对象的关系剖析,这种关系剖析与其余对等的人或物之间的关系运算差异很大,对象间的关系链非常复杂,这就要求大数据平台须要具备可能剖析这些简单关系的能力。

智能运维分级成熟度模型介绍

在介绍解决方案前,咱们先简略介绍一下智能运维分级成熟度模型,该模型是由云智慧在国内首发的对于智能运维 AIOps 的成熟度模型。用户能够通过该模型来评估本身智能运维能力所处阶段,并根据分级的规范来针对性的增强本身短板建设,或有指标的布局本身将来的运维建设方向。

咱们接下来介绍的云智慧运维大数据计划,在这个模型中处于 L3,也就是初步智能化这一阶段。该阶段外围是进行数据层面的买通,将传统的运维组织转化为数据驱动型的运维组织,通过运维数据中台的引入,实现业务可察看,资产可知,状态可视,运维可管以及平安可控等性能。

云智慧智能运维数据平台计划介绍

平台整体技术架构

该计划由四局部技术组成,即采控核心,Kafka、数据平台与算法核心。

  • 采控核心:负责集中采集与治理各个数据源的指标、日志、警报、配置及关系数据。
  • Kafka:作为整体计划的数据管道,用于计划各组件间,以及计划与内部零碎的次要数据传输伎俩。
  • 数据平台:次要负责进行流批一体的数据处理 / 计算,以及数据存储、数据查问后果输入等工作。
  • 算法核心:次要负责运维相干智能算法的训练,配置以及公布工作。

该计划次要组成部分均采纳分布式架构,具备高并发,高吞吐、低延时的大数据个性。其中数据平台采纳了 Flink 和 Clickhouse 两款支流大数据技术,算法核心应用了 Pytorch 和 Tensorflow 两种支流的机器学习框架 / 平台,并内置了 7 种云智慧自研的 AIOps 算法。该计划通过多个行业头部用户验证及洗礼,可能充沛应答大规模运维数据的集中采集、解决、剖析及利用。联合云智慧自研的数据价值利用,能够充分发挥运维大数据价值,使用户全面把握零碎运行状况,并进行高效运维。计划整体依靠之前一章的剖析,有针对性的应答运维大数据特色,是一套非常具备特色的运维大数据解决方案。

计划劣势

本章次要从数据的采集,解决,存储,利用 4 个大数据业务场景来剖析智能运维数据平台的解决方案。

  • 分布式采集,集中管控,1 人即可轻松治理千 / 万采集工作

数据采集。在数据采集过程中,咱们运维组织面对的最大问题就是数据源太多,整个数据采集的工作量十分大,即使是后期能够通过一些监控工具集中采集数据,但许多采集工作仍须要独自治理,这就导致整个采集工作波及的数据源和工作治理界面很扩散。

为了解决上述问题,云智慧专门研发了集中式运维数据采控平台,该采控平台采纳可视化集中管控的形式,集成支流的指标、日志、警报等数据的采集技术和内置的采集工作模板,联合分布式的底层架构,最大限度的赋予了用户通过一个系统管理所有采集工作的能力,让用户能够通过一个平台就可轻松地发现数据源、装置采集组件,配置采集工作和监控采集工作的执行状况。真正做到仅需 1 人即可轻松治理成千上万的数据采集工作。此外,平台还反对基于阈值定义的采集工作主动熔断及主动复原性能,确保数据采集过程不影响前端失常业务的运行,同时又确保数据采集工作的及时启停。

能够说该计划在数据采集方面的技术设计,防止了多源、多采集端以及监控式采集等运维数据采集伎俩治理扩散,效率低的问题。

  • 灵便采控架构,反对边缘计算,不惧对象环境简单

除了便于运维人员集中管理大量采集工作外,云智慧的采控平台还有一些其余的设计特点,可能适应用户简单的 IT 环境,尤其是在网络方面实现了分布式采集、集中管控的模式。

简单网络的特点次要聚焦在带宽和跨网络两个方面。针对带宽低的状况,该解决方案为企业提供了边缘计算的能力,通过边缘计算能够先将数据进行肯定水平的预处理,再将要害数据通过低带宽网络传回,该计划无效升高了数据传输对网络带宽的要求,同时充分利用边缘设施算力,升高总部运维 IT 规模,进一步提高运维效力。针对跨网络无奈直连的状况,该计划反对分级部署,通过部署 Proxy agent 来作为采集中继与采控大脑链接,轻松实现跨网络的数据采集。此外,平台还实现了插件化的采控模式,用户能够依据须要在数据源设施或采集集群上部署采集插件,依据理论的环境状况来组合出能效比最高的采控计划。

  • 可视化编排,内置丰盛算子,进步管道式数据处理工作效力

上述介绍的次要是该计划在数据采集场景中的一些价值和特点。上面来看一下在数据处理场景中,该计划可能给企业带来的价值。

数据处理场景分为狭义的数据荡涤与数据计算两大类。两大类场景能够别离应答不同的数据处理场景,也能够进行组合应用。

在数据荡涤方面,数据荡涤引擎采纳云智慧自主研发的分布式 ETL 引擎,能够依据所需解决的数据量扩容解决集群;此外,零碎内置 42 种数据荡涤组件,反对绝大多数运维数据荡涤场景,企业通过低代码和模块化形式即可治理本人的数据处理工作,还可实时读取样例数据进行 ETL 工作配置正确性的验证,十分便捷高效。

在数据计算方面,云智慧采纳 flink 作为流批一体的数据计算引擎,并为 flink 的计算工作编排提供了可视化治理界面,企业能够十分不便的基于 flink sql 进行批流一体的数据计算工作创立及治理,此外,咱们同时提供了 Jar 工作和 SQL 工作创立模式,企业能够依据理论须要灵便的抉择工作类型。基于 jar 工作,企业还能够通过该计划轻松的治理 flink 反对的自定义算子。

  • 灵便可配置,高效兼顾运维大数据存储的 2 个 V 个性

数据处理之后,接下来持续来看一下数据存储。上述介绍中将运维数据共分为 7 类,其中,指标,日志,警报及局部关系数据合乎大数据容量大、多样性强的特点,为了满足这些数据的存储,云智慧采纳 clickhouse 作为外围的存储技术。

云智慧依据运维数据的特点,利用 clickhouse 丰盛的表引擎,为企业设计了 3 种特色表引擎,这三种引擎专为运维数据优化,确保不同数据在 IO 和压缩比上取得均衡。在确保数据利用成果的同时,升高运维人员保护压力。另外,该计划提供了 1 种通用表引擎,该引擎对绝大多数的大数据分析场景均有不错的体现,通过该引擎,能够加强数据存储的普适性,为后续的数据分析奠定良好的性能根底。

其次,clickhouse 采纳全对称的分布式架构,近两年来,该数据库在国内的流式数仓和流式数据分析场景利用中十分沉闷。许多互联网头部企业均有采纳 clickhouse 作为本人实时数据分析场景核心技术的实际。其中字节跳动公司是 clickhouse 最大的用户,目前字节跳动曾经建设了上万台节点的 clickhouse 环境,其中单体最大集群有 1200 余个 clickhouse 实例,理论数据存储量数百 PB。

  • 业界最佳实际架构,撑持用户及时取得察看后果 / 决策反对

在数据利用层面上,该计划联合运维大数据的特点以及业界最佳实际。选型采纳了 flink 和 clickhouse 作为数据计算,即采纳数据查问的外围引擎来应答实时数据监控及实时数据分析场景。

以上这两种技术在我国的互联网头部企业,例如阿里巴巴,腾讯,字节跳动,滴滴,美团等都曾经有了了十分丰盛的落地实际。利用场景包含实时的指标监控,短视频和直播的用户体验监控、实时计算自定义报警规定,实时数据 ETL,实时用户行为剖析及经营流动成果等方面。

采纳以上两个引擎,次要是因为在数据查问和计算方面的速度都有十分优良的体现,均采纳了大量的技术来优化相干方面的能力。简略举几个例子,flink 自身架构设计就是为了实现数据计算的高并发、高吞吐和低提早,flink 本身基于 jvm 实现了本人的内存管理机制,在内存利用和垃圾回收方面都进行了针对性的优化,同时 flink 反对多种流式窗口来适应不同类型的流式数据处理,并且 flink 天生反对有肯定流控能力的数据计算模型。而 clickhouse 的执行器反对向量化计算模式,同时反对多核并行计算模式。而且 clickhouse 在生成机器码的过程中采纳动静代码生成 Rntime Codegen 技术,联合 clickhouse 灵活多样的表引擎,使 clickhouse 具备目前业内最强的单表数据聚合查问性能。

以上技术个性很好的满足了运维大数据实时性高和时序性强的特点,确保用户及时取得察看后果,或取得统计分析类的决策反对。

  • 7 大类内置算法,展示数据价值,轻松进步运维效力
    此外,在数据利用层面,该计划更是内置了 7 大类 AIOps 算法,通过这些算法可能充沛展示运维数据价值,间接实现具体的智能运维场景,帮忙企业大大地进步了运维效力。

该计划次要蕴含以下八大劣势,劣势大部分都是云智慧独有的能力,这些能力在很多我的项目里都为企业带来了较大的运维能力晋升。

  1. Clickhouse SQL 建模可视化:确保用户数据资产全生命周期集中可视化治理。
  2. 分析模型 API 公布:便于用户对外开放数据能力,面向业务赋能。
  3. 云智慧自研的 AIOps 利用集:助力运维团队以最终用户视角,面向用户体验运维。
  4. 内置 AIOps 算法训练数据集 GAIA:便于用户开启 AIOps 摸索,逐步迈入智能运维之路。
  5. 反对数据分级存储及备份还原策略:确保数据安全,反对用户灵便设置数据管理策略。
  6. 反对容器化部署:与用户一起拥抱云原生,简化保护难度。
  7. 内置 OMP 自运维平台:一键部署,可视化保护,进一步保障平台自运维的便利性。
  8. 云智慧以客户为核心的专家团队:10+ 年运维教训,1000+ 各类技术人才,与用户独特成长。

案例分享

该案例是某航空信息企业,我的项目的背景次要是基于业务倒退须要建设一个云计算利用平台,该平台是一个容器化的 IaaS 平台,基于这个平台,企业正在将本身的业务零碎向微服务化及容器化方向进行革新和迁徙。在这个过程中,企业遇到了微服务与容器架构故障发现、定位与剖析艰难,效率低下以及运维数据庞杂、割裂,短少对立数据处理和全局剖析能力两大问题。

基于企业面临的问题,云智慧以上述大数据计划为根底,联合本身的平面监控工具集,为企业构建了智能运维平台。截止工夫 2021 年初,云智慧曾经纳管了 5000 多台主机,近 400 个利用的纳管。在云智慧的平台中接入了 69 个数据源,建设了 59 个数据管道以及 54 个数据表,每天流入 3.5TB 数据,最终存储 400GB 数据,并保护了航信两大外围业务的业务模型。

在该我的项目中,云智慧最终为企业实现了简单调用链的剖析能力、满足企业串联剖析的场景以及达到企业利用算法进行智能运维建设的指标 3 大价值。为企业运维提供了微小的助力并取得了企业的好评。

写在最初

近年来,在 AIOps 畛域疾速倒退的背景下,IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在 2021 年 8 月公布了 AIOps 社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。

社区先后 开源 了数据可视化编排平台 -FlyFish、运维治理平台 OMP 、云服务治理平台 - 摩尔平台、 Hours 算法等产品。

可视化编排平台 -FlyFish:

我的项目介绍:https://www.cloudwise.ai/flyF…

Github 地址:https://github.com/CloudWise-…

Gitee 地址:https://gitee.com/CloudWise/f…

行业案例:https://www.bilibili.com/vide…

局部大屏案例:

请您通过上方链接理解咱们,增加小助手(xiaoyuerwie)备注:飞鱼。退出开发者交换群,可与业内大咖进行 1V1 交换!

也可通过小助手获取云智慧 AIOps 资讯,理解云智慧 FlyFish 最新进展!

退出移动版