关于运维:必示说第一期以运维系统稳定性为目标打造智能运维产品矩阵

51次阅读

共计 2489 个字符,预计需要花费 7 分钟才能阅读完成。

【必示说】卷首语

必示科技成立已六载无余,六年以来,咱们始终保持自主翻新路线,聚焦 AIOps 产品力和创新力的晋升,保持为行业客户一直发明价值,减速智能运维产品和技术在银行、券商、保险、电信、制作等行业中高效和高品质落地。六年间,咱们积攒了一些教训,也获得了一些问题:2022 年,必示科技取得了更多客户、行业组织和生态搭档的认可、实现了近两亿元的 C 轮融资、欠缺了更合乎当下需要及将来趋势的必示智能运维产品矩阵。

回头看,所有过往皆为序章;向前望,所有未来皆可期盼。

智能运维行业的倒退,离不开基础理论、技术体系、市场需求、落地环境等一系列问题的冲破,须要整个生态中的企业在竞争与单干中独特推动。企业的疾速倒退,意味着更大的责任,咱们深信智能运维技术是第一生产力,也深信产学研的交融是推动行业向前倒退的引擎。心之所向、素履以往。作为较早进入智能运维畛域的国家高新技术企业,新年伊始,咱们想在技术创新、产品研发、落地实际等各个方面,对咱们所酷爱的智能运维行业说点什么 …【必示说】第一期,咱们以“运维零碎稳定性”为指标 打造智能运维产品矩阵开始。

以“运维零碎稳定性”为指标 打造智能运维产品矩阵

新一轮科技反动与产业改革方兴未艾,在数字经济、十四五布局、东数西算等一系列国家政策驱动下,以银行、证券、保险、运营商等行业为代表的泛滥企业迈进数字化转型的浪潮。随着数字化水平越来越高、零碎规模越来越大、组件监控粒度越来越细、监控数据量越来越大以及新技术和新组件一直引入,这些导致运维工程师被海量运维监控数据吞没,利用 AI 技术解决运维问题成为行业必然趋势。

翻新技术必须落地能力产生最大价值,价值和成果是掂量落地胜利与否的规范。对于“利用 AI 技术解决运维问题”的智能运维畛域,无论是价值实际,还是成果实现,毋庸置疑地指向了 IT 运维零碎的稳定性上。

以运维业务稳定性为价值和成果导向的智能运维零碎包含什么?咱们通过 60 余家企业智能运维服务过程中的需要沟通,近百位业内专家的思维碰撞,千余篇国内外趋势论文的研读。咱们认为企业建设智能运维零碎,首先要对采集到数据的汇聚,并通过关联和编制,实现对告警、指标、日志对立查问(运维数据中心),以此为根底,在场景实际上既要在告警事件产生时具备迅速定位、疾速解决的能力(事件定位、事件治理),又须要在重要流动和交易前后对运维零碎进行维稳(运维重保),还须要具备依据事件呈现的征兆提前发现隐患并被动解决的能力(危险感知),同时在未呈现告警事件或者征兆时,还须要通过流量模仿、混沌工程等技术,在测试环境中消除隐患的能力(运维演练)。

要想运维零碎“稳若磐石”,就应该联合场景的根底上,将智能运维零碎建设打造成事先、事中、预先均针对“运维零碎稳定性”的指标产生价值和成果的“六边形兵士”。以此为指标,必示科技通过一直往返的技术研发、工业实际和产品迭代,最终欠缺成咱们现实中的必示智能运维产品矩阵。

必示智能运维产品矩阵蕴含运维平台和运维工具两个层面。首先,从数据源上联合采集的指标、日志、告警、CMDB 等须要运维的数据,进入到运维平台。必示科技产品矩阵中运维平台包含三个局部:智能运维数据平台蕴含运维常识图谱和运维数据编制,将指标核心、告警核心、日志核心等通过运维数据的会集、关联和编制,为运维工具层赋能;运维专属 AI 算法平台针对于具体场景实现算法自动化利用,包含自然语言解决、图计算、感知智能、剖析智能、针对智能化等算法模块,利用算法的翻新、编排和服务性能为运维工具平台赋能;智能运维演练核心,利用混沌工程、运维反抗、稳态构建、流量生成与迁徙等技术和伎俩,通过流量仿真和故障注入,一直晋升运维零碎的稳定性能力。

智能运维平台实质上是 AI 技术与运维业务相结合的产物,从 AI 技术角度,常识、数据、算法、算力四者缺一不可。而从运维业务角度,传统人工运维无奈满足以后的状况根本原因是场景实现无奈冲破日益宏大零碎和数据,所以到了智能运维时代,数据应该是智能运维零碎应该思考的重要因素。在场景实现方面,咱们将智能数据运维平台和运维专属 AI 算法平台为依靠和底座,为具体场景提供智能运维平台工具提供汇聚、关联和编制后的数据流,以及为各场景打造的专属算法,最终利用智能危险感知平台、智能事件治理平台和智能排障剖析平台来解决运维场景中的理论问题。

智能危险感知平台面向危险事先防备环节,基于智能运维专属 AI 算法和专家教训,构建场景配置引擎和危险决策引擎,造成危险发现、剖析、整改、反馈的治理流程闭环,实现从被动运维到被动经营,最终缩短 MTBF。目标是为 IT 运维中变更危险感知、同质化集群部署的离群节点检测、资源危险感知、容量危险感知等场景提供危险预测、量化评估的智能运维工具。

智能事件治理平台面向故障发现和解决环节,基于大数据技术和智能告警数据分析算法,买通监控工具孤岛,对性能数据和告警事件数据等治理、整合、统计、剖析,借助 AI 算法能力,打造事件可视化、事件处理和事件剖析三大治理平台模块,辅助运维人员疾速发现和定位故障,解决告警多莫衷一是的问题。目标是为告警对立治理,并对告警智能降噪、告警分级甄别、定期巡检优化、告警风暴定位等重要场景提供智能化运维工具。

智能排障剖析平台面向故障定位环节,交融海量运维数据,通过常识图谱和算法的双轮驱动,通过对故障的主动发现、剖析、处理和举荐等性能实现,晋升排障速度和效率、积淀专家教训、推动数据治理,并一直晋升智能运维平台排障能力,最终升高 MTTR。目标是为故障发现、故障画像、拓扑排障、高频故障辨认定位、关联故障剖析、业务影响剖析、故障剖析报告等多种场景提供智能化运维工具。

必示智能运维产品矩阵,以“运维零碎稳定性”为指标,为银行、券商、保险、电信、制作等行业企业提供智能危险感知平台、智能事件治理平台、智能故障剖析平台、智能运维数据平台、运维专属 AI 算法平台和智能运维演练核心“六边形”智能运维产品,从事前预测和防备、事中疾速剖析定位和解决、预先教训常识积淀,并以此为循环,在防备和解决运维问题的同时一直晋升智能运维平台能力,最终升高 MTTR,缩短 MTBF。

正文完
 0