关于运维:一体化运维降本增效秒云助力海富通基金打造智能运维平台

4次阅读

共计 2873 个字符,预计需要花费 8 分钟才能阅读完成。

随着各行各业数字化转型的继续推动,以及信息化建设的不断深入,IT 零碎规模及复杂程度日趋增长。据 IDC 预测,2021 年中国金融行业 IT 收入规模(包含:软件、硬件、IT 服务等)达到 2186.02 亿元,到 2025 年将达到 3359.36 亿元。随同着 IT 资源越来越丰盛,监控数据量亦呈现出指数级增长态势,导致治理复杂度越来越高,智能运维需要随之加大。

互联网时代,各种各样的行为信息、状态信息、指标信息等都会以日志、指标、事件等状态记录存储下来,通常状况下,这些机器数据零散地散布在各个业务零碎上,对其进行价值开掘的难度较大。就金融业来讲,所有业务场景,数据作为各项业务流动的重要载体,以电子化的状态存储于海量运维数据之中,其价值不可估量。这些数据既包含了零碎层面无关资源耗费的性能特色,还包含业务层面事关客户、账户的交易明细日志。

智能运维作为撑持金融机构数字化业务稳固继续运行的要害伎俩,在将来发展前景广大。一方面,随着金融科技利用的继续深刻,企业数据规模陡增,传统流程化治理的瓶颈一直凸显。日益增长的数据体量下,传统的运维伎俩已难以满足金融机构更加简单的业务监控和平安治理需要;另一方面,通过智能运维伎俩,金融机构能无效监控不同运维场景中的运维资源,并能通过大数据分析(Big Data Analytics)和人工智能(AI)等技术利用及时实现运维全生命周期的智能化治理,从而保障系统稳定性和业务连续性,这也是金融机构可继续倒退的根底。

智能运维在金融畛域利用已成刚需,银行、保险、证券等金融机构正减速建设智能运维体系,基于数据、利用算法、采纳可观测性技术辅助运维成为以后金融及各行业的共识。将自动化运维、智能化运维的新技术与数据管理联合起来,势必要思考到金融业机器数据分析面临的一些共性问题。

金融行业面临的运维难题与挑战

►  海量数据——难治理

IT 环境中包含网络设备、安全设备、服务器、虚拟机、中间件、服务、业务零碎等,从底层硬件到下层软件每时每刻都在产生数据,每天各类日志、告警、指标的数据可达几十 TB,随着工夫的推移,势必积淀海量的数据。这些数据里蕴藏着大量要害信息,比方业务的交易日志,服务器指标信息,零碎事件、异样告警等,这些数据是发现问题和定位故障的根据,如何保留海量数据,如何剖析海量的数据,如何从海量的数据中找寻故障的根因是 IT 运维长期面临的问题。

►  数据扩散——难对立

尽管目前大部分金融单位已有网络监控平台、日志治理平台、Zabbix、Prometheus 等运维治理相干工具,但某个工具往往只专一某类特定数据或者某一场景。IT 环境下剖析定位问题往往须要多个工具配合,造成了应用不便,更重要的是造成日志数据、事件数据、指标数据、告警数据等多类运维数据扩散存储,造成了数据孤岛,无奈进行数据关联剖析和对立展现。

►  数据多类——难剖析

日志、事件、指标等运维数据,往往以文本(字符串)格局呈现,没有固定格局,因厂商不同而各异,多属于非结构化数据。这些数据无奈间接剖析,甚至难以读懂,对运维人员来说无疑是十分大的挑战。随着人工智能技术的衰亡,将 AI 使用于运维,应用算法来剖析,代替人做出决策未然成为趋势,它能帮忙企业疾速洞察人力难以企及的故障和问题,精确预测危险,化被动运维为被动运维。但目前大部分的运维平台以监控为主,仅提供查问、展现和告警的性能,剖析能力单薄,更不具备智能算法的能力。其本质还是依赖于人工察看、剖析和定位问题,要求运维人员具备丰盛的运维教训和较高的技术能力。

►  故障排查——难定位

IT 零碎宏大而简单,为了实现一个确定的工作,须要多个零碎或服务之间的互相调用,故障产生时,许多零碎或服务可能会同时产生告警。传统的监控运维平台以图表模式展现监控数据,仅仅只能反映某一类或某一种数据的异样,是以繁多的数据视角来出现问题,犹如盲人摸象,只能窥见部分,难以全面的观测整个业务零碎的衰弱状态。这导致对于多层次的零碎架构的故障定位愈发艰难。在大面积故障中找到存在于多零碎架构内的故障根本原因往往须要多部门,多位运维专家同时配合,一一排查。期间耗时耗力,重大影响了业务体验。

秒云助力海富通基金破解运维难题

海富通基金治理有限公司成立于 2003 年 4 月,是中国首批获准成立的中外合资基金治理公司。截至 2021 年 9 月 30 日,海富通共治理 89 只公募基金,海富通治理的公募基金资产规模约 1380 亿元人民币。

同大多数金融行业相似,海富通基金运维同样面临海量、扩散的运维数据,造成剖析定位故障难的问题。在日常的运维中,经常出现这样的场景:业务呈现故障时,须要登录网络设备排查网络设备问题;登录安全设备排除是否收到内部攻打;登录服务器,排查操作系统问题;搜寻中间件、业务系统日志,查看是否有 error、warning、exception 等异样。这样逐个排查,对运维人员的的技术要求十分高,也须要多人的配合,定位工夫长、投入老本高,重大影响了业务体验。

秒云金融行业解决方案介绍

为解决金融行业在运维过程中面临的上述问题,秒云从三个方面和档次动手:

首先建设对立的大数据运维平台,采集全量的日志、指标、告警、事件等运维数据,解决数据扩散,数据孤岛的问题,为后续的数据分析和数据展现提供根底。

其次,以数据平台为根底,集成有监督、无监督、半监督的机器学习算法。依据运维常见问题,将算法使用于日常的运维场景中,如动静阈值告警、告警收敛、指标剖析、告警关联剖析、智能异样日志检测、根因定位等,构建开箱即用的运维场景算法剖析平台。

最初,剖析后果须要出现进去,解决察看难的问题,计划围绕业务零碎拓扑图,展现零碎各组件的拓扑关系,展现和利用零碎相干的日志、事件、指标、告警等数据,以业务的视角做运维,让业务运行状态具备可观测性。在全景的业务运维视图上察看、发现、摸索、定位故障。

秒云基于海富通基金的运维现状和倒退需要,为其提供的计划大抵可归为三局部内容:

首先建设对立的运维数据平台,采集路由器、防火墙、VPN 服务器、Linux 服务器、Windows 服务器、业务零碎的日志、指标、事件等运维数据,为用户提供运维数据查问平台,解决数据扩散,定位问题时登录多套零碎的问题。

其次以可视化形式展现对 VPN 日志、Windows 事件、防火墙事件、主机指标的剖析成果。包含:VPN 目标地址 TOP10 统计、VPN 源地址 TOP10 统计、Windows 登录剖析、安全事件分类占比统计、攻击者排名、异样事件趋势等,以图形化形式展示数据中蕴含的信息,让用户从看数据转变为看图形。

最初以“海富通 APP”、“基金超市”、“专户理财”等业务的视角构建业务拓扑图,在拓扑图上出现和业务相干的组件、数据以及剖析后果,标记有故障的组件,直观展现业务故障点。

秒云金融行业解决方案亮点

通过引入自动化等治理技术手段,实现对各类业务对象运维数据的对立查问和治理,解决了数据孤岛问题;通过机器学习算法,对各类扩散的数据进行对立剖析和对立展现,让用户在一个平台观测、发现和定位问题,极大升高了运维的技术难度和运维投入老本,晋升了运维效率。

正文完
 0