关于运维:必示科技|智能运维在证券行业的落地实践

39次阅读

共计 3498 个字符,预计需要花费 9 分钟才能阅读完成。

本文转载自 ITSS《中国智能运维实际年度报告(2021-2022)》之实际案例分享。

篇首语 - 智能运维的价值

相比传统运维形式,在明确的利用场景下,智能运维在数据分析效率、剖析论断准确性、数据处理广度等方面具备显著劣势,可能实现更细粒度、更高精度的异样发现,特地是一些潜在的业务危险、零碎瓶颈,可能更加高效、更加精确的定位故障根因。

借鉴海恩法令的思路,在日常运维工作中及时发现并修复大量的潜在危险,在这些隐患逐步累积造成重大的 IT 故障事件之前将危险消除于有形,从被动式救火转向主动式经营,保障业务稳固平安运行,正是运维工作的价值体现。

行业背景

古代证券行业波及大量资金的频繁交易,交易并发量高、波及资金规模微小、交易解决时效性要求极高,且须要严格遵守监管法规,因此证券企业对交易系统的可用性、响应率等指标有着非常严苛的要求。同时,因为交易时段集中所带来的海量交易数据集中处理压力,也使证券企业的交易系统运维工作面临微小挑战。交易系统的运维管理水平间接影响企业业务的经营品质和安全性;低效的运维工作会连累业务的增长后劲。随着证券市场业务规模的迅速增长和新技术、新组件的继续引入,传统运维伎俩越来越难以满足简单交易系统的运维需要。近年来,一批富裕摸索翻新精力的证券企业开始将眼光投向基于机器学习算法与运维大数据的智能运维体系,借助智能运维伎俩推动企业数字化转型,为业务继续成长打造松软的 IT 根底。

在这样的时代背景下,自 2019 年起,某头部证券企业率先迈出了建设智能运维体系的策略步调,与必示科技独特建设智能运维平台,在证券行业落地实际智能运维能力建设,以更加高效的伎俩应答运维工作挑战。

建设指标

  • 赋能监管控运维体系,晋升运维效率和零碎可用性,改善 RTO 程度,升高 MTTR。
  • 引入成熟可控的开源组件和技术,升高运维零碎建设老本。
  • 摸索金融畛域可落地、可复制的智能运维体系建设施行门路。

需要痛点

“不全”:性能号级的细粒度业务指标覆盖范围不够,业务指标的阈值配置依赖于管理员教训,配置保护工作量大,难以疾速、大规模扩大指标监控范畴。

“不灵”:证券行业的业务解决存在交易时段的限度,而非交易时段往往执行大量的降级、变更操作,容易导致交易时段指标数据模型的训练受到非交易时段数据的波及,进而影响指标基带成果和告警准确率。

“不准”:应答大规模数据的排障过于依赖人力投入,不仅耗时较长,且难以放弃较高的准确度。因为人工伎俩效率有余,大量运维数据难以被充分利用。

针对上述问题,该证券企业与必示科技以场景驱动、充沛开掘数据价值为思路,开始单干摸索适配证券行业特点的智能运维场景,构建合乎企业运维须要的智能运维能力。

解决方案

与人工排查为主的传统运维伎俩相比,智能运维平台可利用机器学习算法疾速剖析大规模的运维数据,从异样发现和异样定位两方面无效晋升运维系统对海量数据的利用效率。该证券企业充分运用这一劣势,将现有各类 KPI 数据与业务明细数据、日志数据相结合进行自动化关联剖析,无效改善了故障的发现与定位流程。

管理员首先从业务运行衰弱状态和用户体验的视角,通过响应工夫、响应率、成功率等业务指标和利用日志的实时异样检测去及时发现异常事件。当业务指标出现异常后,平台会主动遍历所有业务维度组合去开掘异样维度定位后果,帮忙管理员横向判断初步的异样排查方向,或本次异样的影响范畴。同时,平台会主动扫描与该业务零碎相关联的所有基础架构对象实例的性能指标,向管理员提供纵向机器指标的定位剖析后果。最初,联合日志数据分析后果、相关联的事件工单等,管理员可依据各项排障线索去做进一步的深刻故障排查,以确定故障起因和故障解决计划。

相比传统运维形式,智能运维伎俩以机器学习算法和大数据处理能力为根底,可能解决的数据品种更加丰盛、数据量更大,能够从海量数据中捕获 IT 零碎的异样痕迹,并剖析可能的故障成因,帮忙运维人员及早发现、定位和解决问题,升高均匀故障修复工夫,晋升零碎均匀无故障运行工夫。

大范畴高敏感低误报”的异样感知能力

业务指标异样检测:以集中交易系统的交易明细数据和网交零碎的业务日志为数据源,次要针对零碎级和性能号级的业务可用性指标进行实时检测,利用算法对主动对数万规模的细粒度指标实现监控笼罩,可将指标聚合粒度从分钟级晋升到秒级,以适配券商交易对于时效性要求高的特点。此外,在算法层面独自针对交易时段的数据进行模型训练和检测,以防止非交易时段数据的烦扰,用于适配证券交易时段的业务特点。目前该场景已笼罩集中交易、融资融券、疾速订单、各类网交零碎等多个外围交易系统的数万个业务指标(响应工夫、响应率、成功率、调用次数,均包含零碎级和性能号级)。

日志异样检测:以日志治理平台为数据源获取各类日志数据,从利用日志、系统日志的角度发现日志数据中蕴含的异样事件,并作为故障剖析时获取更多排障线索的佐证。日志数据中往往蕴含着丰盛的零碎运行信息,甚至间接是异样的根本原因,因而对日志数据的价值开掘无论对于异样发现还是故障排查均极具必要性。但因为日志数据量微小、品种繁多、格局简单等因素,无差别的全量日志异样检测通常存在告警量大、误报多等问题,依照日志的不同类型来辨别监控形式是更加可行的数据利用思路,包含日志关键字监控、日志模板提取、指标提取与检测等。通过综合不同监控形式充沛集成运维教训和算法劣势,该场景已对系统日志、利用日志、数据库日志等实现实时检测,屡次发现传统利用监控未发现的异样事件。

立体式全方位快速度”的异样定位能力

程度定位——业务明细多维定位:以集中交易系统的交易明细数据和网交零碎的业务日志为数据源(与业务指标异样检测场景应用雷同的数据源)。业务明细数据中蕴含丰盛的维度数据可用于在聚合类业务指标出现异常稳定时去判断异样根因维度和异样影响范畴,例如响应工夫、交易量,这类整体性质的聚合类指标背地的每一笔交易往往存在多个维度属性(返回码、客户端版本、线路、省份、城市等)。当此类业务指标呈现问题时,针对多个细分维度数据疾速判断异样水平最高的维度属性组合,往往能帮忙管理员迅速放大排障范畴,进而晋升故障处理效率。目前该场景已笼罩十几个交易维度,可能在业务指标产生异样时在分钟级时延内迅速定位可能的异样维度(组合)。相比人工一一维度的取值进行下钻剖析的形式,该场景对于数据分析效率的晋升是非常显著的。

垂直定位——机器异样定位:以 IT 基础设施监控对象的性能指标数据和 CMDB 的资源关联关系数据为数据源。当业务指标产生告警时,主动对相关联的海量 IT 基础设施对象的性能指标状态进行批量扫描,判断其在故障时段是否存在异样稳定。相比人工排查根底监控视图的形式,该场景利用聚类、时序检测等算法疾速实现对万级根底对象监控指标的批量扫描,分钟级给出剖析后果,无效晋升故障排查效率。目前该场景已接入主机、数据库、中间件等多类根底监控对象的数万个性能指标,能够帮忙管理员迅速实现根底监控层面的指标排查。

建设成绩

该证券企业与必示科技通过深刻交换和严密单干,针对券商业务特点和数据特点对智能运维平台进行了一系列适配和优化,获得了显著的运维工作改善功效。

实现业务精细化监控:针对数万个性能号级的细粒度业务指标,大规模扩大监控覆盖范围,补足多维度的业务监控盲区,及时辨认业务运行的潜在异样危险。

晋升业务监控时效性:将业务监控指标颗粒度从数分钟晋升至 10 秒,异样定位速度晋升至分钟级,大大缩短异样发现时延,应答证券交易时效性高的特点。

优化零碎潜在危险,晋升业务竞争力:平台将零碎 MTTR 升高约 5 成,节俭了多个运维岗位的人力需要。数月内发现近百个潜在危险点,无效晋升企业危险防备能力与运行保障能力。

智能运维能力建设与行业个性适配:单方深度单干,在智能运维平台的设计和经营过程中充沛适配证券行业的业务个性和数据特色,一直优化算法模型来摸索适宜证券行业的智能运维能力落地教训,为更多证券企业提供建设演进路线。

实际总结

该证券企业是行业内最早建设智能运维体系的先行者之一。通过与必示科技的单干,单方在运维场景与券商业务特点适配方面获得显著成绩,无效晋升了业务零碎的运维品质和效率,加强了业务零碎的稳定性,并屡次荣获行业奖项,为证券业的智能运维转型降级提供了良好的示范作用。

通过智能运维体系建设,该证券企业应答业务系统故障和潜在危险的能力明显增强。该我的项目成绩具备疾速复制到其余同行业客户的特点,可帮忙更多证券企业欠缺运维体系建设,为数字化转型构筑稳固牢靠的能力根底。随着更多企业与必示科技单干,智能运维技术一直遍及,逐步展示其真正的价值,成为金融科技进行数字化转型不可或缺的能力因素。

正文完
 0