关于运维:高效实践|运维指标体系在银行业务的应用实践

10次阅读

共计 3641 个字符,预计需要花费 10 分钟才能阅读完成。

背景

银行 IT 零碎在云化、容器化、中心化、微服务等架构迭代演变过程中,零碎架构和业务调用关系简单,运维治理难度日益凸显。银行业务零碎多采取烟囱式建设办法,数据互通艰难,运维团队无奈做到及时响应、及时发现并解决问题。目前,银行业整体上已具备联合业务场景收集比拟残缺的 IT 指标数据的能力,亟待一套指标数据分析体系为 IT 治理与业务剖析提供可量化、可视化、集约化的决策撑持。然而,中国银行业在实际指标管理体系的过程中会遇到以下几方面的挑战:

  • 兼顾全局运维数据源的挑战

中国银行业正处于传统向互联网转型期,云计算、大数据等新兴技术也在逐渐发展,而且银行业须要海量的 IT 计算力和实时的响应速度才能够满足继续推出翻新业务的诉求。简言之,银行业运维数据源的数据量级在减少,而业务部门对实时处理响应工夫的期望值在减短。

此外,对于单个业务部门的指标数据,能够依赖集体对业务场景的教训疾速作出判断并利用于 IT 运维管理工作。但银行零碎时时刻刻都会产生海量的指标数据,IT 管理人员无奈判断指标数据对于业务的重要性、优先级,更无从下手梳理指标数据与业务的关联性,从而无奈聚焦某个业务场景内的指标数据,导致指标数据无奈施展出其潜在价值。

  • 继续翻新智能算法库的挑战

中国银行业数字化转型正在挑战 IT 的组织和治理形式,技术正在越来越多地集成于业务,IT 不再局限于反对技术,更是翻新的推动力。银行业因为本身的个性,对于减速翻新业务的诉求火烧眉毛,而针对业务场景翻新的智能算法模型正是解决此类诉求的不二法宝。

  • 跟跑智能运维新实践的挑战

智能运维尽管曾经倒退多年,但仍处于摸索阶段。指标管理体系实际过程中须要继续学习、排汇智能运维畛域中像 ITIL 4 和 IT4IT 等规范的新理论体系,能力让指标管理体系施展出对业务智能运维的微小推动作用。

银行指标管理体系落地实战

一套欠缺的指标管理体系应基于企业业务和 IT 运维治理的顶层布局,将各个业务零碎的孤立数据进行分类、分层治理,从而通过更零碎、更有档次的形式来展现业务场景的指标数据,使之成为以数据为驱动、面向业务运维监控与治理的落地抓手,让 IT 管理员可能将繁冗的 IT 管理工作升维从简,在改善 IT 治理形式的同时晋升企业整体的 IT 经营效率。

01 落地实施方案

某银行指标管理体系的施行落地我的项目基于顶层指标治理驱动,从业务视角切入,以业务场景为主题、以业务连续性为主旨,通过直面业务场景、正向梳理 IT 调用链、逆向接入数据源等施行步骤,最终构建了一套具备概览所有业务场景衰弱度、鸟瞰多维立体化 IT 指标等能力的指标管理体系。

首先,从银行的外围业务场景开始,通过业余运维数据库平台对利用零碎的 IT 数据源及业务数据源进行对立数据采集、指标提取和数据存储;之后,针对银行业务的特点及业务部门的需要,进行指标管理体系征询、调研,对 IT 数据和业务数据进行指标梳理和计划建设,造成指标标准与施行制度;而后,联合指标标准与施行制度进行指标体系治理,最终以功能模块及平台模式的形式实现该银行指标管理体系的建设。同时,依据银行业日常运维场景,在指标管理体系平台的下层利用中实现工作台、可视化管控和 AIOps 等功能模块的落地。

02 指标体系建设

  1. 业务调研:聚焦业务场景、梳理业务指标

通过业务调研,梳理该银行的外围业务,包含线下领取(比方:柜面贷款)、线上领取(比方:手机银行)、财产治理等,依据业务关注度和用户体验影响度,同时联合业务部门的汇报报表和领导决策时参考的业务指标,梳理出外围业务场景的要害指标,示例如下:

  1. 数据接入:拓扑 IT 调用链、度量技术指标

通过调研银行 IT 零碎及自动化配置平台的数据,梳理出撑持银行外围业务的利用零碎,比方全渠道领取零碎、领取前置零碎、领取清理零碎等;每个业务零碎都有齐备的 IT 零碎,依据外围业务零碎的监控现状和指标关注度,依照自上而下调用链的依赖关系分为五层的技术指标监控体系:应用层、服务层、中间件层、过程层(虚构层)、主机层,联合多个银行案例的指标管理体系建设教训对监控源进行指标管理体系建设,搭建各层指标之间依赖拓扑的关系矩阵,示例如下:

上述各层的技术指标都是一条独立的实时序列数据流,通过银行自动化配置平台的配置项数据建设各层技术指标之间的调用链拓扑关系网,示例如下:

  1. 模型配置:量化业务关注度、建模指标衰弱度

搭建实现指标管理体系的架构分层后,联合外围业务指标,以后果导向的逆向思维对各层指标的权重进行评定:业务指标的稳固依赖业务子系统的稳固、业务子系统的稳固依赖 IT 利用零碎的稳固、IT 利用零碎的稳固依赖 IT 零碎各层级的稳固、IT 零碎各层级的稳固依赖于各项技术指标的稳固,那么当原子级的技术指标不稳固时如何危险降级向上浸透呢?通过对技术指标进行级别评定、权重调配的形式加权计算量化各项技术指标的影响力。

例如,柜面贷款是最外围的根底业务零碎,须要从生死线指标、要害指标和规范指标三个维度对柜面贷款业务的衰弱度进行模型配置:

  • 柜面贷款的生死线指标:交易成功率;体现业务可用性的单个指标。
  • 交易成功率的计算形式:单位工夫内的交易胜利数除以雷同单位工夫的交易总数。
  • 柜面贷款的要害指标:申请成功率、均匀响应工夫;间接影响业务态势的一组技术指标。
  • 指标解读:当成功率低于预期阈值时,间接阐明终端用户在应用柜面贷款性能时,业务操作频繁失败,进而影响用户的应用体验,导致客户流失率晋升。
  • 柜面贷款的规范指标:内存使用率、CPU 使用率;与业务态势相干的单个监控类技术指标。
  • 指标解读:当主机层物理资源的 CPU 使用率、内存使用率突升时,可能会引起 IT 利用零碎单节点的不稳固,但在微服务化、分布式架构的背景下该危险不会蔓延影响到业务层。

对指标进行生死线指标、要害指标、规范指标的分类评级是为了更精确的量化定义每个指标对业务主题衰弱度的权重,是建模业务场景衰弱度的重要影响因子,即通过加权计算所有技术指标的权重取得业务场景的衰弱度评分。

通过定义衰弱度、设置权重后,建设起笼罩柜面贷款业务的衰弱度模型,示例如下:

  1. 全局概览:工作台概览业务场景、利用墙鸟瞰指标态势

工作台作为指标管理体系的下层利用,承载了指标体系治理的设计理念,即反对从业务场景墙、利用墙、服务墙、中间件墙、主机墙等页签查看各层的衰弱度态势;通过对立治理业务指标与 IT 指标的衰弱度,进而反对从业务场景墙联动查看 IT 零碎各层的技术指标衰弱状态,最终保障业务运维的连续性。

  • 业务部门的运维视角

业务部门通过业务场景墙概览各个业务场景的衰弱度评分,点击业务场景下查看该业务场景依赖的子业务零碎拓扑图,通过色彩标识(绿色示意衰弱、橙色示意危险、红色示意劫难)直观地理解业务子系统中各 IT 利用零碎的运行态势,点击 IT 利用零碎反对查看各项要害指标的运行状态及趋势图,赋能剖析业务场景的衰弱状态,精准定位源头、晋升跨部门沟通效率。

业务视角 - 业务子系统依赖拓扑图

业务视角 - 业务子系统运维态势深度剖析

  • 技术部门的运维视角

运维部门通过利用墙、服务墙、中间件墙、主机墙概览 IT 利用零碎各层技术指标的衰弱度评分,点击查看部门负责的 IT 利用零碎后看到该 IT 零碎各层的指标体系拓扑图,点击各层的实例对象查看该实例对象的各个指标对象的运行状态、趋势图等实时数据,赋能排查 IT 零碎技术指标的异样项,预防于事先、告警于事中、回溯于预先,扭转运维形式、晋升运维效率。

运维视角 - 利用零碎的平面拓扑图

运维视角 - 实例对象指标态势的深度剖析

总结与瞻望

上述银行指标管理体系实战获得的成绩可演绎为如下两方面:

  • 通过分层串联调用链的立体化构建理念加强了运维流程的残缺度:买通了 IT 运维流程各层级利用零碎的调用关联,做到端到端笼罩,保障 IT 零碎运维连续性、晋升整体零碎运维效率。
  • 通过联合业务与运维的拓扑可视化设计理念晋升了业务运维效率:进步了业务黏合连接运维的透明度,基于度量驱动流程进行优化,从而建设高效合作、高度受权和继续改良的组织文化。

银行业的 IT 零碎建设正在降级演进阶段,业务运维的瓶颈点也在“闪转腾挪”。指标管理体系也会在流程精细化、算法智能化、运维一体化的方向上乘胜追击、乘势而为。

开源福利

现如今,云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时,FlyFish 也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置,面向简单需要场景可能保障高效开发与交付。

点击下方地址链接,欢送大家给 FlyFish 点赞送 Star。参加组件开发,更有万元现金等你来拿。

GitHub 地址:https://github.com/CloudWise-…

Gitee 地址:https://gitee.com/CloudWise/f…

万元现金福利: http://bbs.aiops.cloudwise.co…

微信扫描辨认下方二维码,备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~

正文完
 0