共计 2970 个字符,预计需要花费 8 分钟才能阅读完成。
背景与挑战
随着电网公司数字化转型工作的推动和云平台、大数据、物联网、挪动化、智能化等新技术的利用,推动高效一体化网络排障定位与深刻推动人工智能及大数据技术等在电网信息系统运维中的利用,以及使用前沿科技技术,进步生产治理效益,晋升数字电网建设过程中数据的价值已成为电网公司数字化转型工作的必然要求。
与此同时,随同着电力行业数字化转型的一直倒退,相干企业业务零碎的不断更新与设施数量的大幅减少,由此引发了电力行业以下痛点:
- 监控层面:不足非侵入式的业务数据监控伎俩;
- 工作流程层面:不足对立的 IT 服务入口和服务治理流程;
- 人员层面:业务体系简单,不同业务部门各自为政;
- 故障解决层面:问题产生后被动解决,且故障剖析定位艰难。
基于以上背景及痛点,如何在不植入探针或 Agent 的状况下监控业务链路运行状况,业务管理人员如何统计分析要害业务指标数据,运维人员如何精确定位故障、排查故障对电力行业相干企业来说均是极大的挑战。
场景需要剖析
基于上述背景及挑战剖析,电力行业具体蕴含以下运维场景需要:
- 非侵入式监控:通过非侵入式伎俩或工具实现对业务拓扑和业务指标数据的监控;
- 运维数据分析:对立收集、解决、剖析业务零碎运维数据、日志数据和要害指标数据;
- 对立解决展现:对业务零碎的物理链路、逻辑拓扑以及指标数据进行集中监控展现;
- 故障定位剖析:对立告警信息收集、对故障进行关联剖析,精确定位故障问题和根因,晋升故障解决效率。
解决方案
整体产品技术架构
下图为整体产品技术架构,蕴含底层立体化监控与治理工具集、中层数字化运维数据中台、顶层数据价值与治理产品集。底层立体化监控与治理工具集蕴含基础设施监控(DOIM)、业务性能监控(DBPC)以及其余开源及非开源监控工具与日志剖析(DOLA);中层数字化运维数据中台蕴含数字化运维指标管理体系(DOMM)、面向服务的配置管理(CMDB)、智能剖析(DOIA)、数字化运维数据库 (DODB)以及采控平台(DOCC);顶层数据价值与治理产品集蕴含数字化运维监控核心(DOMC)、数字化运维事件治理(DOEM)数字化运维工作台、报告报表以及数字化经营服务治理。
产品列表及性能
业务性能监控工具
下图为业务性能监控工具监控网络流量镜像的具体流程。通过抓取网络镜像流量的形式对业务数据进行剖析。业务发动后,业务流量通过多层链路一体化展现,直观明了地展现业务在哪个层级耗费的工夫状况。
数字化运维数据库
数字化运维数据库可能实时高效的接入用户环境的多种数据源,收集用户环境中的 IT 和业务数据,进行对立的治理和存储,通过便捷和弱小的建模剖析工具,将数据进行关联剖析、业务建模,后果实时输入给可视化以及其余利用。
- 数据处理:通过数据处理 pipeline 对流式数据进行实时处理,内置多种数据处理组件以及数据处理模版,开箱即用,全方面满足数据预处理的要求。
- 数据存储:高性能的分布式列式存储数据库,大大减少数据对磁盘空间的占用,在雷同容量下,可能对更大范畴的数据进行实时查问。
- 数据计算:丰盛的聚合计算函数和弱小的计算能力,充沛利于 CPU 资源面。聚合查问的均匀响应工夫可在 3 秒以内,一些简略查问能够在毫秒级。
数字化运维算法平台
数字化运维算法平台蕴含指标异样检测、指标预测、日志模式识别、根因剖析与举荐、多指标剖析、告警降噪等 6 大 AIOps 场景的 20 余个智能算法。提供了丰盛的算法库,开箱即用,可能撑持丰盛的运维场景。
- 单指标异样检测:动静基线算法、主动阈值算法、分段阈值算法、频域剖析算法、主动抉择算法
- 多指标异样检测:多指标异样检测算法
- 日志解析:CWdrain 算法、CWspell 算法
- 指标预测:CWprophet 算法、CWrnn 算法
- 根因剖析:基于调用链的 RCA 算法
- 智能告警降噪:日志统计异样检测算法
数字化经营指标体系治理平台
数字化经营指标体系治理平台作为下层利用侧产品监控核心重要的数据起源之一,帮忙其通过整合业务与 IT 资源、指标、衰弱度、告警事件,围绕业务价值构建多维度的运维监控体系,以实现可能疾速发现、剖析并定位故障,达到全方位、立体化监控的能力。
动态阈值
- 手动设定数据区间梯度
- 依据数值坐落区间获取指标衰弱度
动静阈值
- 选定算法进行指标异样检测
- 历史数据训练取得算法模型
- 算法后果断定指标衰弱度
衰弱度设置
生死线指标重大异样时,可一票决定衰弱度。衰弱度得分是表征对象衰弱状态的绝佳指示器。
- 抉择参加计算的指标元素
- 依据业务状况调配元素的权重
- 生成衰弱素计算公式
数字化运维监控核心
数字化运维监控核心是一款全方位、立体化的实时监控产品,面向企业业务价值与 IT 运维的顶层布局,对业务数据以及基础设施、中间件、服务、利用、调用链等 IT 资源进行对立监控,并通过构建业务关联关系,联合指标、日志、告警等,帮忙疾速发现、剖析并定位故障。
数字化运维事件治理
数字化运维事件治理基于大数据技术和机器学习算法,对立接入与解决来自于各种监控零碎的告警音讯与数据指标,反对告警事件的过滤、告诉、响应、处理、定级、跟踪以及多维分析,最终实现面向告警事件全生命周期的闭环管控。
整体计划流程
在数据采集侧,通过业务性能监控工具抓取旁路流量,获取业务系统监控数据,同时通过业务流程梳理,建设业务链路拓扑,实现基于业务理论链路的监控剖析,监控数据通过 kafka 传递至运维数据库。
运维数据库接管到数据后,对数据进行解决(包含字段提取、拆分、合并、格局转换等)并基于场景需要将不同数据存储到不同的数据库,同时通过查问引擎为利用场景提供数据撑持。
最初,在监控核心对业务零碎拓扑和数据指标进行对立展现,基于规定进行衰弱度剖析和事件告警,通过智能运维算法和大数据分析,实现指标数据的趋势预测和对事件告警的根因剖析。
某电网企业案例分享
需要剖析
- 心愿通过不植入代码的形式来监控业务层的指标数据,造成业务链路拓扑图,跟踪业务数据流向,并实时展现要害数据;
- 通过指标历史数据,动静提供指标预测基线、预测数值范畴;
- 针对问题,可能进行根因剖析,疾速进行问题定位;
- 对接以后应用的告警零碎,剖析出数据后果后,通过以后正在应用的的告警零碎去触发事件。
云智慧解决方案
- 通过 DBPC 工具通过旁路镜像流量的形式获取实时业务数据,以非侵入的形式实现了对业务的监控;
- 建设运维大数据平台,实现对接管的数据进行对立存储和解决,并提取要害指标数据;
- 利用智能算法,对历史数据进行学习,实现了对将来一段时间内的数据趋势预测;
- 通过告警事件治理,对接客户现有告警零碎,实现了告警信息的压缩、荡涤,并且与现有的工单零碎实现关联。
FlyFish 开源福利
云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置,面向简单需要场景可能保障高效开发与交付。
点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。
GitHub 地址:https://github.com/CloudWise-…
Gitee 地址:https://gitee.com/CloudWise/f…
微信扫描辨认下方二维码,备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~