乐趣区

关于运维自动化:高校行业智能运维解决方案解析含落地实践

背景与挑战

自信息化“十二五”以来,“三通两平台”成为教育行业信息化建设畛域的重点。在以上背景下,各地教育部门和学校纷纷发展了大量建设实际。

随着以后教育利用翻新的层出不穷,高校信息化建设也从数字校园向智慧校园转变时校园 IT 零碎也面临着新的改革与挑战,次要蕴含以下两方面:

  • 利用平台层面:教育资源公共服务平台、教育治理公共服务平台中的重要业务零碎如一卡通、财务、查分系统等对可用性和敏捷性均提出了更高的要求;
  • IT 运维层面:大量的零碎和设施对运维提出了更高的要求,零碎简单难有无效的监控工具,因而导致运维问题难以疾速定位,运维成果难以无效评估。

此外,随着数字校园向智慧校园的转变,该过程给校园 IT 运维也带来了以下痛点:

  • 衰弱度感知:教育资源公共服务平台、教育治理公共服务平台整体健康度体系难以建设,无量化指标治理;
  • 定位难:因为第三方提供的零碎品质难以保障,导致师生在应用各零碎平台(如备课零碎、自主学习零碎、校园综合管理系统等)时呈现的问题难以复现,难以定位;
  • 高并发:难以提前评估零碎的并发瓶颈,导致阶段性暴发的考生查分热潮,时常引发零碎宕机。

解决方案

高校智能业务运维三大阶段蕴含运维工具补全阶段、IT 运维治理标准化阶段以及智能运维阶段。

高校运维工具补全

运维工具补全阶段次要蕴含基础设施监控,业务利用监控、用户体验监控、集中告警等校园 IT 基础设施监控的补全。

此外,随着智慧校园的的建设,学校 IT 根底建设的逐步欠缺,多校区共用同一机房的特点,使得 IT 基础设施的实时在线与平安性能显得尤为重要。

基于以上背景,云智慧基础设施监控通过丰盛的协定接入能力以及模型化定义能力,可疾速反对新资源,实现资源的一体化监控,实时理解把握服务器网络硬件软件等基础设施以后的健康状况,以便评估掂量基础设施使用率,为用户基础设施优化和理解基础设施设施的解决能力提供精确的数据,预测潜在的故障,进行提前预警。

校园机房可视化实时告警方面,云智慧提供机房的三维全景视图,包含机柜、机柜外独自设施;温湿度采集模块采集机房区域温湿度状态后接入该机房的串口服务器,串口服务连贯网络后可将温湿度状态数据传送到云智慧服务器对立监控。

指标检测方面,云智慧内置了上万指标项,胜利做到了开箱即用。

云智慧可被动发现业务问题,保障各园区教学楼专线高可用。一方面,云智慧通过全国乃至寰球节点对高校对外业务进行 7 *24 小时被动拨测,以便及时发现问题,被动告警;另一方面,通过在各校区办公楼安排云智慧监控魔盒,实时监控专线品质,进步用户体验。

随着校园各业务零碎的逐步欠缺,业务和业务之间的调用关系也逐步复杂化,因而导致业务零碎呈现问题时难以疾速定位。基于上述因素,面对简单多样化的零碎时,学校业务零碎须要可视化的工具进行集中管理,同时量化第三方提供的业务零碎品质,以便学校业务系统故障定位和剖析。

云智慧领有端到端全技术栈利用性能治理,蕴含反对挪动和智能设施以便更好的了解实在用户体验;反对端到端高度虚拟化利用来跟踪负载变动;以及反对私有云、公有云及混合云的跨云环境部署形式。以上性能可疾速定位教务零碎问题,蕴含以下几方面:

  • 精密运维:蕴含主动发现全局拓扑图、疾速定位性能问题、利用间关联剖析;
  • 用户体验:蕴含主动获取所有用户行为、细粒度追踪实在的用户行为、操作及流程性能;
  • 深度诊断:蕴含代码级问题诊断、剖析堆栈语句性能影响、数据库 SQL 细化剖析;
  • 行为剖析:蕴含业务行为统计分析、端到端事务追踪、疾速定位性能问题。

业务剖析方面,云智慧可基于惟一的申请 ID 标识主动串接整个申请,从前端到后端利用代码以及基础设施,基于单次申请序列还原问题快照,帮忙高校从外到内逐渐分析师生应用零碎的问题本源,以此达到师生应用问题疾速复现的目标。

云智慧高效解决方案可疾速定位代码级问题。蕴含基于业务拓扑发现问题、挪动端代码解体问题剖析、Web 端实在用户体验监控剖析、申请与要害事务剖析以及单次申请剖析。

云智慧可基于各教务零碎整合梳理利用以及 IT 资源情。一方面,零碎架构拓扑图分层展现零碎所有对象的衰弱水平及相互之间的依赖关系。另一方面,用户可依据资源疾速查看纵向依赖关系以及剖析关联的对象,从而减速根因排查过程。

云智慧提供告警的对立进口,以此实现告警集中化、自动化、多样化、智能化、人性化。次要蕴含以下几方面:

  • 汇聚扩散告警,进行规范格式化,实现集中化解决;
  • 告警处理的自动化,确认、派单、降级、复原;
  • 告警告诉性能反对多种告诉形式,确保问题事件告诉可能被即时送达;
  • 基于规定对海量的、继续的冗余音讯进行告警压缩和告警合并,克制告警音讯的数量,缩小告警音讯的频率;
  • 提供告警静默选项,对系统维护工夫窗口内的告警进行静默解决,从而缩小不必要的告警骚扰。

高校运维治理标准化

高校运维治理标准化阶段蕴含 ITSM、CMDB、运维自动化等方面技术的实现。云智慧通过基于标准化的治理流程,标准第三方服务,以此优化师生用户体验。

IT 服务治理(ITSM)总体设计方面,通过云智慧数字化经营服务治理产品能够满高校 IT 服务管理系统的建设。通过现有产品性能 + 零碎 API 接口 + 自定义流程 + 局部性能二次开发定制即能够满足对智慧校园我的项目的建设内容。

信息化资产集中管控方面,云智慧领有基于主动发现的 CMDB 数据保护。通过 Agent、API 等多种形式,主动采集 Iaas、Pass、Saas 层的配置项信息。反对多数据源联邦采集,并和谐各数据源的采集数据,确保 CMDB 中配置项信息的全面和精确。

下图为 CMDB 整体架构设计图。通过云智慧 CMDB,能够实现对 IaaS、PaaS 到 SaaS 层的运维元数据的全面治理,为运维监控、服务治理和自动化等零碎提供残缺而精确的元数据撑持。

以下是 CMDB 利用于监控告警解决与自动化平台的数据良性循环过程。CMDB 作为各种资源的配置信息库,为监控告警信息提供信息下钻能力,让单点告警信息拓展到具体影响面。自动化平台通过告警自愈触发零碎修复,此时将通过 CMDB 取得工作执行的指标列表,进步工作执行的准确性与可性行。待问题零碎修复后,CDBM 将主动采集零碎信息并更新原库中信息,实现信息归档。

信息办工单可视化方面,云智慧通过工单统计,使得高校信息办工作有迹可循,从而达到继续优化的目标。

高校运维智能化

高校运维智能化蕴含智能剖析、预测剖析、机器学习、AI 等技术的实现。一方面,通过实现 AIOps 智能运维场景,转变运维管理模式,从而进步智能化和自动化程度。另一方面,使用人工智能算法基于数据特色感知业务隐患,从而可基于历史数据预测故障产生。

云智慧提供的指标异样检测旨在通过算法发现 KPI(要害效益指标)工夫序列上的异样点,而后通过告警告知运维人员相干危险。与此同时,指标异样检测也是其余 AIOps 场景的前置场景,其检测后果为后续的告警收敛、根因定位、故障自愈等场景提供输出信息。

单指标智能异样检测具体如下图所示:

多指标智能根因剖析具体如下图所示:

智能日志异样检测蕴含日志异样模式检测、日志统计异样检测、日志程序异样检测以及其余异样检测等。

云智慧提供基于用户体验的运维思路。从数据监控,到剖析优化,到治理领导,最终晋升了师生的总体满意度。达到了从根底、晋升、治理、高级 4 个阶段的转变,实现从工具化运维接到智慧化运维的演进。

落地实际

某高校对立监控平台案例

需要痛点

  • 业务零碎泛滥,调用关系难以可视化;
  • 难以感知用户拜访体验;
  • 呈现问题,无奈疾速定位本源;
  • 零碎泛滥须要集中管理和集中监控。

计划亮点

  • 对已有业务零碎建设的对立监控平台
  • 应用 APM 探针技术对业务零碎的用户体验进行端到端的追踪

计划价值

  • 治理价值:对宏大、多样、简单的业务零碎可能有全局上的把控;
  • 运维与开发价值:可能无效监控业务零碎的全量拜访数据,从全局到部分做到精准定位、深刻问题诊断。(譬如,业务零碎运行拓扑、拜访效率、数据库查问语句、主机信息等)
  • 整体价值:疾速晋升业务零碎的性能,满足全校师生的用户体验,保障失常教学活动的发展。

FlyFish 开源福利

云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置,面向简单需要场景可能保障高效开发与交付。

如果喜爱咱们的我的项目,请不要遗记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,咱们须要您的激励与反对。此外,即刻参加 FlyFish 我的项目奉献成为 FlyFish Contributor 的同时更有万元现金等你来拿。

GitHub 地址: https://github.com/CloudWise-OpenSource/FlyFish

Gitee 地址: https://gitee.com/CloudWise/fly-fish

微信扫描辨认下方二维码,备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~

退出移动版