关于运维自动化:行业方案|医疗行业智能运维解决方案介绍

12次阅读

共计 7173 个字符,预计需要花费 18 分钟才能阅读完成。

行业背景

倒退要求

近年来,在若干政策指引下,医院信息化管理系统、电子病历零碎、区域医疗信息互联互通等重点工作逐渐失去欠缺。国家卫健委开始着手细化医院的评审和评级品种,明确了验收细则和工夫点,考核日趋严格。例如,卫健委要求到 2022 年,全国二级和三级公立医院电子病历利用程度均匀级别别离达到 3 级和 4 级,智慧服务力争达到 2 级和 3 级,智慧治理争达到 1 级和 2 级,可能撑持线上线下一体化的医疗服务新模式。实现“以评带建,以评促改”。

因为,“互联互通 + 智慧医院 + 精细化治理 = 医院各类零碎的融合度、复杂度将继续加大”,评审的趋严间接给信息中心的 IT 运维带来微小压力及艰难。

平安要求

2019 年 12 月 1 日起,网络安全等级爱护 2.0 相干规范正式施行,实现对新技术、新利用平安爱护对象和平安爱护畛域的全笼罩,因为目前医院纷纷上云,虚拟化的平安防护尤为重要,因而等保 2.0 尤其强调网络安全防护,强化“一个核心,三重防护”的平安爱护体系。

等保要求的晋升,给医院信息系统的平安工作迎来新挑战。因为随着信息技术的一直倒退,特地是云计算、物联网等新技术的不断涌现和利用,在带给医疗行业疾速、便捷的同时,也让边界防护变得含糊,黑客攻击、勒索软件、蠕虫病毒以及系统漏洞导致的数据失落与业务进展已成为各级医院亟待解决的难题。如何实现全方位主动防御、动静进攻、整体防控和精准防护是医院的挑战,“十四五”期间,5G 等新型网络基础设施也面临着更高平安要求。

因而,医院信息中心,岂但要承接越来越多的零碎运维压力,还要依照等保要求,晋升平安防护能力,未然分身乏术。

运维现状

目前,为响应国家政策,简化看病就医流程,买通医疗大数据,增强业务利用与医院治理,医院一整套业务流程囊括了预约挂号零碎、电子病历零碎、测验化验零碎、影像平台零碎、财务信息系统等一系列相干零碎,实现医院次要患诊数据的互联互通。但因为各类零碎须要同时对接患者、医生、医院各科室等多个端口,作为医院运行的神经中枢。对各零碎的稳定性要求极高,一旦某套零碎呈现故障,会整体业务流程造成影响。

因而,就目前医院零碎笼罩的业务量,互通紧密度,都导致信息中心有大量且琐碎的运维工作,而信息化最好的三甲医院最多也就 10 人左右的运维团队,80% 的三甲医院只有 3 - 5 人的运维人员,二级医院只有 2 - 3 人,剩下的就更少。面对如此庞杂的零碎运维工作,疲于奔命,成果还不好。

需要形容

三级医院

  • 集中管理需要 :智慧医院建设推动,大部分三甲医院曾经实现 HIS、LIS、PACS、EMR、体检零碎、对立领取等外围业务零碎的建设,且已配套肯定规模的网络、服务器、动环等零碎。各厂商独立监控、数据割裂,不足对立监管工具。
  • 问题发现需要 :新业务零碎上线检测、现有零碎问题排查都是信息中心预先发现问题,且仰赖人工摸排、摸排工夫长、问题解决效率低下,运维管理工作功效不显著。
  • 根因定位需要 :少部分三甲医院曾经不满足于只是发现问题,他们须要排查到问题的本源,进步问题处理的精准度,因而对异样检测、日志审计能力要求较高。

二级医院

  • 集中管理需要 :随着二级医院业务扩大和信息化建设的继续深刻,尤其疫情促使二级医院提速业务线上化过程,上新利用和现有系统优化需要较多,IT 零碎运行的稳定性、可靠性问题较多。加之只有 2 - 3 人的运维人员,无论技术能力 + 数量都无奈满足当下运维工作须要。
  • 评审达标需要 :为能升三级医院,须要达到相干平安评审规范,运维监控是达标要求的一部分。

医院运维平安

目前,因为等保 2.0 的要求晋升,根据《全国医院信息化建设规范与标准(试行)》、《卫生行业信息安全等级爱护工作的领导意见》等规定,须要医院实现网络安全体系中堡垒机和日志审计、网络管理控制系统的建设,大多数医院医疗网络目前无网络安全体系中堡垒机和日志审计、网络管理控制系统安全设备。

要害指标

  • 运维平安治理

    • 可能提供集账号治理、身份认证、单点登录、资源受权、访问控制和操作审计为一体的运维平安审计服务;
    • 可能对服务器、网络设备、安全设备、数据库等资产的运维操作过程进行无效的运维操作审计,使运维审计由事件审计晋升为操作内容审;
    • 通过内控治理平台的事先预防、事中管制和预先审计来全面解决运维平安问题。
  • 日志审计

    • 可能实时不间断地采集汇聚医院网络中不同厂商不同品种的安全设备、网络设备、主机、操作系统、生产业务零碎的日志信息,帮助技术人员进行平安剖析及合规审计,及时、无效地发现异常安全事件及审计违规;
    • 可能提供泛滥基于日志剖析的弱小性能,如平安日志的集中采集、剖析开掘、合规审计、实时监控及平安告警等,为安全事件的剖析、溯源提供无力撑持;
    • 可能同时满足医院理论运维剖析需要及审计合规需要,是医院日常信息安全工作的重要撑持平台。
  • 网络管理管制

    • 可能面向医院园区网络的新一代网络管理控制系统,是集治理、管制和剖析性能于一体的网络自动化与智能化平台;
    • 可能提供园区网络的全生命周期自动化、基于大数据和 AI 的故障智能闭环能力,帮忙医院升高运维老本,减速医院数字化转型,让医院网络管理更主动、网络运维更智能。

痛点剖析

  • 定位问题难: 局部医院带有华为网络监控零碎(监控医院网络、交换机状况),但对物理服务器的硬件信息、操作系统、服务中间件、挪动端利用和数据库等不足无效对立管理手段,难以被动发现问题与故障。无奈满足现有 IT 设施的运维监控要求。
  • 问题发现滞后: 门诊楼、住院楼等用户通过专网拜访各类业务零碎,之间的网络链路状况、零碎拜访可用性、响应工夫等不足无效伎俩进行实时感知,往往接管到投诉后才进行排查,耗时耗力,还成果不被认可。须要借助工具晋升异样检测的准确率。
  • 运维负荷高: 只有 3 - 5 人配置,日常运维通过人工形式进行机房巡检,通过观察设施指示灯判断故障,对服务器、网络等基础设施层以及利用业务层无巡检。疲于奔命,无奈满足现有 IT 设施的运维监控要求
  • 新零碎上线: 医院处于上新零碎期间,可能呈现比拟多不确定因素。须要利用 apm 通过抓取服务端的数据,将异样数据作为医院验证新零碎性能的指标评判,心愿业务问题可能间接定位,辅助新零碎调优,须要间接部署在生产环境中。
  • 资源管理难: 医院数据中心对服务器 CPU、内存等计算资源,磁盘空间、磁盘 I / O 等存储资源大多没有无效办法实现科学管理及布局,对系统利用节点和数据的各项性能参数配置等数据把控有余。
  • 告警风暴: 局部医院带有动环、基础设施监控,但因为医院业务零碎简单,会产生过多告警信息,使运维人员吞没在告警风暴中无从判断起因。
  • 厂商监控独立: 尽管有局部厂商能够提供监控工具,但各工具之间绝对独立,仅能提供自有产品的状态监测。短少对外围业务零碎(如:HIS、PACS 等)全链路进行监控,当业务零碎产生异样时仅能从设施层和零碎层剖析问题,很难定位到业务或利用的问题根因。
  • 平安评审要求不达标: 因为等保 2.0 进步了医院的信息化平安要求规范,局部医院须要依据相应平安评审要求,利用运维监控平台进行撑持。
  • 网络性能不稳固: 因为目前各大医院都仰赖网络,尤其上云的医院,一旦呈现网络性能问题,就必然导致大面积的业务瘫痪,所以网络性能的监控及平安危险评估,都是重中之重。但因为医院运维我的项目广泛估算无限,NPM 价格绝对较高,比拟难 cover 住老本,所以卖的不多。

产品列表

  • DOIM 私有化部署,次要围绕客户 HIS、LIS、PACS 零碎波及到的设施层,包含数据库、操作系统、服务器硬件、存储磁盘阵列、数据库和虚拟化平台等进行对立监控。
  • APM 私有化部署,次要围绕 HIS\EMR\LIS\PACS\ 体检零碎 \ 对立领取零碎等外围后端利用进行监控检测。在测试场景中、生产环境中均有部署。
  • DOLA 次要依靠云智慧在智能算法、日志剖析方面的能力,帮忙医院在业务零碎运维监控方面做好事先预防工作,缩小问题发现和故障排除的时长,晋升异样检测的准确率。日志扩散在各类服务器主机、容器、网络设备中,需通过 CDC 进行日志的采集,采集对象是 IAAS 层所有设施。
  • DOEM 通过邮件、第三方 Push 等形式进行告警告诉。

整体计划

云智慧提供面向“智慧医疗”畛域的一体化智慧运维实际。利用场景蕴含被动监控、疾速排障、集中告警、价值出现、集中管理、日志剖析、被动巡检、服务治理。此外,云智慧一体化智能运维监控计划领有全栈监控、自主可控、成熟计划、大量实际、以客户为核心、全国服务网络、算法能力当先、ITIL v4 官网认证等外围劣势。

整体架构设计

下图为云智慧一体化智能运维解决方案整体架构设计。

次要利用场景

全栈监控

通过 Agent、SNMP(V1、V2、V3)、WMI、SSH、Telnet、IPMI、ILO、北向接口、串口、ODBC/JDBC、自定义 SQL、URL、WMI、Java 连贯等形式对上百家厂商的服务器、网络设备、操作系统、存储、虚拟化、中间件、数据库、Web 服务等资源的配置数据和指标数据进行对立采集。最终实现资源管理与拓扑治理。

  • 资源管理:包含网络设备治理、主机治理、数据库治理、中间件治理、存储管理、硬件治理、规范服务治理、日志治理 (syslog、snmp trap)。
  • 拓扑治理:具备主动网络拓扑的性能,采纳先进的网络拓扑发现算法和数据采集协定实现网络拓扑发现,包含基于路由层链接生成网络拓扑图;基于网段的连贯生成物理网络拓扑图;基于 VLAN 和子网生成各子网逻辑拓扑图。

此外,全栈监控还蕴含实现以下监控指标:

  • 一体化监控:内置 120+ 种开箱即用资源模型、10000+ 监控指标,能全面疾速地对接上百家厂商的老旧设施、IT 资源、动环设施、IOT 设施,以此进行集中式采集监控和告警治理,同时反对对接其余零碎数据。
  • 异构云环境治理:采纳云模式架构设计,利用云节点的采集处理器和代理形式,实现在多种云异构模式下,跨平台 / 网络 / 安全策略 / 域对支流云厂商的 IT 资源进行对立监控和集中管理,监控范畴可扩大。
  • 国产化适配:反对支流国产化设施、操作系统、数据库、中间件的建模和指标采集监控,不限于达梦、金碟、保兰德、人大金仓、达梦、西方通、神通、麒麟、飞腾等,自研数据库不受国内环境影响。
  • 开箱即用:领有数百种开箱即用指标采集和 CI 数据采集模型,采集 Sever 端的搭建最快可在几分钟内实现,应用简略不便。

全年 365 天 7 *24 小时实时展现各项资源和利用零碎的整体运行状况,通过智能化运维使原来盘根错节的运维管理工作变的简略和轻松,真正实现职责明显、平安高效、稳固牢靠、智能管控的指标。

集中管理

  • IP 地址治理。通过 IP 地址治理性能能够帮忙数据中心正当的对网络地址的日常及长期应用做出布局,进步网络安全性。
  • 通过工具定时扫表,发现网段中的 IP 地址的状态。包含:应用中、未应用、治理 IP、保留 IP 等。依据 IP 地址状态进行实时归类,以视图的形式出现,依据不同的色彩辨别不同状态,实时统计,保障网络地址的正当应用。

疾速排障

利用拓扑主动发现:全自动发现利用所有技术栈及其关联关系,帮忙用户从宏观把握一个利用及其关联利用的整体状态以及申请数、响应工夫、谬误等的变化趋势,疾速定位各层级问题。

针对单次申请,通过根本信息和业务拓扑发现潜在问题,追踪慢元素和堆栈详情,剖析谬误和异样信息及堆栈,剖析 SQL 语句、API 调用与申请参数等的执行状况。

日志剖析

日志审计次要依靠云智慧在智能算法、日志剖析方面的能力,帮忙医院采集、整合、剖析扩散在各类服务器主机、容器、网络设备中的日志,在业务零碎运维监控方面做好事先预防工作,缩小问题发现和故障排除的时长,晋升异样检测的准确率。

集中告警

告警治理能依据告警相干的根本规定,通告主动学习的算法能力,如:集群合并、IP 合并等把同一时间与该告警相干的告警进行了聚合。此外,通过对告警的智能剖析,用户能够防止有效告警、告警风暴的产生,疾速对故障的排查和定位,全面晋升告警治理能力。

  • 告警收敛,辨认无效告警:对短时间内大量产生的反复告警和有效告警进行压缩、去重,辨认无效告警。
  • 告警聚合,帮助帮忙定位问题:蕴含依据集群合并、依据 IP 合并、依据网段合并、依据异样品种合并、依据宿主机与虚拟机的关系合并。

下图为一站式智能告警故障排查和定位的场景,通告示例图可看到是 Oracle 数据产生了故。云智慧依据海量的告警进行收敛辨认,发现了对于 Oracle 表空间、过程、实例、死锁的 5 条告警。与此同时,依据告警相干的根本规定,通告主动学习的算法能力,如:集群合并、IP 合并等把同一时间与该告警相干的告警进行了聚合。最初通过告警与指标关联,查看以后该告警的指标趋势发现可能是死锁引起的问题。

通过对告警的智能剖析,用户能够防止有效告警、告警风暴的产生,疾速对故障的排查和定位,全面晋升告警治理能力。

被动巡检

为预防事变的产生,运维人员须要每天对大量设施逐个巡检。在传统运维模式下,运维人员必须顺次登录设施实现巡检,不仅消耗大量的工夫,而且手工操作的形式容易出错。主动巡检能够通过疾速聚焦问题以此晋升效率。

  • 医院可依据理论须要在自动化作业场景中增加相应的场景,并将操作和编排工作与运维场景关联。
  • 内置多种常见的操作系统、数据库、中间件等巡检模版,可能满足日常巡检需要。
  • 反对灵便配置巡检指标以及阈值,高亮展现异样指标,异常情况高深莫测。
  • 反对定时执行策略、巡检告诉、自定义邮件模版以及邮件附件类型,保障巡检工作有打算地执行。

价值出现

  • 根底资源监控:通过大屏展现各监测点拜访医院各利用时利用端口的可用状况及端口衰弱状况。
  • 网络品质监控:对网络时延、丢包率等要害性能指标进行监控及大屏展现。
  • 利用性能监控:通过大屏展现各监测点拜访医院各利用时利用端口的可用状况及端口衰弱状况。
  • 数据库衰弱度监控:对数据库可用状况、数据容量、数据库要害性能指标进行监控及大屏展现。

服务治理

云智慧是通过 AXELOS(ITIL 版权所有方)认证的中国首家官网受权的 IT 服务治理征询合作伙伴 (ACP)。这意味着在行业内,云智慧将能为有志愿引入 ITIL 的企业提供更加权威的 IT 服务治理征询与服务,并进一步增强该实践的本地化实际。因而,云智慧的现有产品框架也是遵循新一代 ITIL 理念打造的。

  • 智能客服:利用自然语言辨认技术,帮忙用户解决常见问题,疾速响应用户的同时极大缩小运维工程师工作量;
  • 坐席监控:可实时查看坐席的接待数、对话数、均匀响应工夫、均匀对话时长、音讯总数等信息和某个坐席的详情数据;
  • 挪动提单:灵便地对接企业微信、钉钉等企业 IM 以及客户自有 APP,反对用户通过挪动端拜访智能客服和在线服务台,反对用户自助提交工单、查问工单解决进度;
  • 服务目录:提供服务目录的对立定义和治理性能,为企业的服务提供对立的、统一精确的信息源,为其余服务治理流动提供撑持;
  • 流程表单:提供可视化工单流程定义面板、丰盛的可视化控件和功能强大的表单设计器,可能满足各种场景下的工单定制要求;
  • 知识库链接:平台内置大量常识条目,集中管理历史积淀教训及罕用场景常识,便于常识利用即查即用,晋升问题解决效率,缩小对专业人才的依赖;
  • 工单看板:对 IT 服务治理中波及到的各类工单数据进行直观监测,实时展现服务危险点、服务质量、服务效率以及服务水平,帮忙管理层从全局视角对 IT 服务的品质进行感知与管控。

案例分享

某医院一体化监控我的项目

我的项目背景

某医院在应用自动化监控零碎之前,次要靠人工巡检,通常是在业务产生问题影响应用时,IT 部门能力失去告诉,派相干人员解决问题。因为业务不能中断,运维人员常常夜间须要去机房解决设施问题,而其中很多问题都是重复性呈现。

服务内容

  • 动环监控:机房烟感、温感、漏水、UPS、空调等情况;
  • 根底监控:各零碎的服务器、操作系统、网络设备、数据库、中间件等 IT 软硬件设施;
  • 主动处理:自动化巡检代替人工巡检,监管控一体化使运维更轻松,紧急告警主动触发预设置的程序和脚本,实现主动解决;
  • 实时查看:APP 端反对安卓和 IOS 零碎,在手机端查看治理的业务和设施情况。

某医院智慧运维我的项目

我的项目背景

某医院信息中心机房是 SAN 网络架构,以此确保医院各项业务不间断提供。但为满足海量影像数据的持续增长,保障各零碎稳固有序的运行,院领导决定建设一套智慧运维体系,实现对所有院区的 IT 设施进行实时监控、集中管理。以此晋升故障处理效率,缩小宕机、零碎中断产生。

服务内容

  • 一体化监控:对该医院现有 PC 服务器、UNIX 服务器、交换机、路由器、存储、oracle 数据库、SQL SERVER 数据库、中间件等所有设施和利用进行实时监控。独特的 MegaSpeed 海量秒级监测,将故障响应级别晋升到秒级。
  • 实时告警:对 IT 设施和利用进行 24* 7 的实时监控,一旦呈现运行故障或性能指标达到告警阀值,告警信息便会通过短信、邮件、声音和色彩等形式主动推送。
  • 全景大屏:满足医院数据中心各种业务零碎、网络设备等丰盛监控状态可视化需要,实现全息全维态势动静出现。

FlyFish 开源福利

云智慧已开源数据可视化编排平台 FlyFish。通过配置数据模型为用户提供上百种可视化图形组件,零编码即可实现合乎本人业务需要的炫酷可视化大屏。同时,飞鱼也提供了灵便的拓展能力,反对组件开发、自定义函数与全局事件等配置,面向简单需要场景可能保障高效开发与交付。

如果喜爱咱们的我的项目,请不要遗记点击下方代码仓库地址,在 GitHub / Gitee 仓库上点个 Star,咱们须要您的激励与反对。此外,即刻参加 FlyFish 我的项目奉献成为 FlyFish Contributor 的同时更有万元现金等你来拿。

GitHub 地址: https://github.com/CloudWise-…

Gitee 地址: https://gitee.com/CloudWise/f…

微信扫描辨认下方二维码,备注【飞鱼】退出 AIOps 社区飞鱼开发者交换群,与 FlyFish 我的项目 PMC 面对面交换~

正文完
 0