关于监控:电力行业告别传统运维拥抱全链路云上监控

32次阅读

共计 1571 个字符,预计需要花费 4 分钟才能阅读完成。

随着电力行业信息化建设的疾速倒退,尤其是随着云原生和分布式技术在电力信息化建设中的大范畴推广和利用,电力行业云上业务零碎变得更加简单,业务零碎外部节点和相互之间的衰弱关联影响也越来越动静多变,给资源管理、系统监控、运行保护工作带来了极大挑战。

目前,在电力“双态”混合倒退的状况下,敏态业务一直增多,进步了利用效率的同时,也让资源规模变得宏大,利用的拓扑构造和通信也变得更简单、更难监控。

同时,在云上分布式业务架构中,大多数的利用故障也不再来自于繁多利用外部,而是来自于不同利用或服务之间的简单交互,只通过传统的监控伎俩或人工运维的形式曾经不能疾速实现云上资源被动感知、状态跟踪和业务故障定界。

另外,因为传统的网络旁路监控是基于交换机实现的,而云上业务通常采纳三层网络模型,业务之间的流量不通过交换机,传统的网络监控不能无效撑持云上场景,监控能力生效。

因而,在大规模化的云上业务倒退中,电力企业短少针对云上业务简单调用的梳理和监控能力,亟需强化云上运维监控能力,自动识别并造成云上业务及相干资源容量的全链路拓扑,实现云上业务监控全笼罩指标,晋升云上业务零碎衰弱管理水平和业务平安稳固运行程度。

谐云为多个电力省公司建设实现云上业务全链路监控及衰弱剖析平台,基于 eBPF 技术以业务无感知无侵入的形式采集业务运行链路要害指标数据,集成易扩大的 Prometheus 采集云上利用指标以及主机与容器资源信息数据。

同时,谐云监控平台兼容阿里云、华为云及电力容器云平台的数据采集,将采集的原始数据通过数据聚合剖析、业务利用调用关系关联、业务数据集成等解决,提供多维度的智能剖析与高度可视化界面,实现电力云上业务全链路监控、资源容量精细化治理和业务零碎衰弱度剖析。

● 云上业务全链路监控

无感知业务指标采集:基于 eBPF 技术,以无侵入的形式,获取包含云平台指标、业务运行指标以及业务链路各层面的指标数据,涵盖运行时状态数据、精细化资源容量状况和业务申请链路数据,不影响业务运行;
云上业务全链路监控:主动构建云上全网流量业务拓扑关系图,提供单次申请故障产生时刻的网络品质和利用响应回溯的性能,可精确定位是网络问题还是利用问题,为云上业务提供全链路端到端的监控伎俩

● 资源容量精益化治理

业务资源容量剖析:以业务视角剖析业务零碎运行过程中全链路各个层面的资源容量状况,对用户访问量与资源使用量进行精准统计,笼罩业务自身、依赖的组件节点等各个层面的资源容量状况;
系统资源异样辨认:通过系统监控剖析,自动识别业务零碎容量异样应用景象,为信息系统的故障剖析与容量布局提供无效撑持。
● 业务零碎衰弱度剖析

业务零碎衰弱剖析:依据业务零碎运行形式(节点数)、告警数量、资源容量、中断时长、平安等保评估、破绽数量等节点信息,构建业务衰弱算法模型,联合电网知识库,对业务零碎衰弱数据进行交融剖析,造成云上业务零碎衰弱度视图;在零碎呈现某一故障后,可疾速判断并剖析故障对相干业务衰弱度的影响,构建解决模型,为故障影响判断、业务零碎整体稳固运行提供直观管控伎俩;
智能告警预测:通过机器学习算法构建重点业务零碎黄金指标数据模型,比方访问量、成功率、相应工夫等,反对通过外围指标自动识别业务衰弱,也反对配置并定时拜访业务特定健康检查 URL 辨认业务衰弱,实现业务零碎异样的智能预警,及时发现零碎问题危险,进步零碎运行衰弱指数。

随着电网信息化建设的高速倒退,云上业务规模的不断扩大,电力调度各项业务须要进入精细化运维、智能化治理的时代。

精细化运维,须要准确的指标采集以及对业务运行的全面感知以造成云上业务全链路管控及衰弱剖析;智能化治理,须要保持翻新驱动倒退,放慢大数据分析和智能告警预测,及时发现零碎问题危险,从而解脱调度业务运行保护对于大量人力投入的依赖,已成为晋升调度业务能力的外在须要和必然选择。

正文完
 0