关于运维自动化:全面解析云智慧数据中心统一运管解决方案

8次阅读

共计 4788 个字符,预计需要花费 12 分钟才能阅读完成。

云智慧 AIOps 社区是由云智慧发动,针对运维业务场景,提供算法、算力、数据集整体的服务体系及智能运维业务场景的解决方案交换社区。该社区致力于流传 AIOps 技术,旨在与各行业客户、用户、研究者和开发者们独特解决智能运维行业技术难题,推动 AIOps 技术在企业中落地,建设衰弱共赢的 AIOps 开发者生态。

引言

2020 年,数据中心建设被地方正式列入新基建策略,与此同时,疫情下数字经济及 IT 国产化的高速倒退也催生了各行各业对数据中心的新需要,即在加大建设投入的同时,更要保障其运行稳固及服务可用。此外,我国以后数据中心建设仍面临着布局结构性失衡、能耗程度居高不下等问题。因而,推动企业数据中心朝着绿色、平安、高效的方向进一步倒退以及解决能耗、需要匹配等难题是以后数据中心的的首要任务。

趋势解读

从企业外部经营指标来看:治理数字化、流程规范化、人员专业化、技术标准化、运维自动化都会成为外围诉求。此外,在 Gartner 最新公布剖析报告中,通过对寰球 400 多位 I&O 领导者调研总结,给出了以下三条 DCIM(Data Center Infrastructure Management)畛域倒退倡议:

  • 将 DCIM ⼯具与运维畛域的 IT 服务治理(ITSM)、IT 资产治理(ITAM)、IT 经营治理(ITOM)及配置管理数据库(CMDB)等软件相集成,从⽽更残缺地理解经营状况;
  • 在物联⽹、边缘计算、微型数据中⼼、服务治理、⼯作流和⾃动化等技术畛域设置集成点,从⽽全⾯理解基础设施状况;
  • 利⽤经营剖析和⾃动化,施行本地部署或 XaaS 模式工具,从⽽在混合环境中最⼤限度地提⾼资源利⽤率,并加强服务交付能⼒。

需要与挑战

通过继续地落地施行与走访调研,大多数企业会以进步数据中心 ROI 为最终目标来发展建维工作。因而,保障数据中心业务连续性也会被当作以后阶段重要指标,并且会以场景关联人员周期、资产生命周期、治理周期三环,提供“人、事、物”综合治理的能力。

  • “物”即资产生命周期:无形与无形资产从洽购、入库到下架、清理。
  • “人”包含外部与内部人员:实现对其入职、学习、工作、到职治理。
  • “事”不仅涵盖日常工作流程化规范化治理,还要对紧急事件进行预防演练、应急处理过程进行治理。

此外,以后阶段数据中心治理仍面临以下三大类问题:

  1. 整体业务倒退问题:涵盖范围广、扩张速度快、运维老本高;
  2. 运维技术(数据 + 工具)问题:设施定位难、工具智能化不高、数据利用率低;
  3. 精细化治理撑持问题:资产盘点慢、资源布局难、平安管控难。

解决方案与性能场景介绍

基于以上需要及挑战,云智慧为企业提供数据中心对立运管解决方案,帮忙企业实现对数据中心基础设施层面人、事、物的全面智能化管控。

整个解决方案包含软件和 IoT 智能硬件两局部。其中软件平台局部帮忙用户实现数据中心业务管理智能化,为企业赋能多样化能力:如多平台整合、大数据运维、自动化运维、规划设计、决策撑持等;而 IoT 智能硬件局部则是帮忙用户重点实现数据中心资产治理智能化,以及通过丰盛的感知器从数据源头管制资产生命周期的时效性与准确性。

此外,通过泛滥落地案例,云智慧总结了数据中心运维过程中最有代表性的六大场景,蕴含全资源管理、运维监控、对立调度、全景可视、智能剖析、计划举荐。上面咱们将对相干场景做具体介绍:

  • 资产全生命周期管控,无效升高资产总体领有老本

针对新形态数据中心资产治理的创新型需要,通过“软件 + 硬件 +流程引擎”为一体的资产治理解决方案,实现资产治理的智能化、自动化全生命周期管控,帮忙客户无效升高资产总体领有老本:

•通过资产库存治理性能,为客户升高 IT 资产的追踪老本,缩小资产销账。

•通过利用率剖析,帮忙客户疾速检索闲置资产,进步资产利用率

•通过资产平安治理,升高资产损坏以及因为数据失落而导致的额定费用,升高资产缩水危险

•通过颐养和配置管理,帮忙客户升高颐养、培修和召回的费用,缩小汇报的需要

•最初帮助客户晋升操作的合规性。

  • 以全资源监控、全告警笼罩等打造 对立营维平台

对立营维平台是将数据中心内蕴含的资产、容量、线缆、供电、制冷、能耗、环境、微环境、运算等资源进行了无效整合与利用,实现了跨专业、跨区域、跨范畴的资源整合与治理。此外,联合自有准确到 U 级定位硬件,通过灵便可配的流程治理引擎,对各状态资产从验收到报废全运维生命周期的状态及地位进行实时评估和跟踪,从而实现资产治理的精细化、标准化、无纸化,以此保障资产数据的继续精确无效,升高人为操作危险。

对立运维平台是在上述资产全生命周期治理的根底上提供了根底环境的全笼罩监控,包含机房环境、机柜微环境以及根底资源。

下图展现了云智慧能够监控的典型资源与对应的告警类别。特地是对于机柜级微环境的温湿度的实时监控能力,补救了以后绝大部分数据中心治理的空白。例如:云智慧能够监控每个机柜的部分制冷量,防止适度制冷或者部分过热导致的 IT 设施运行故障。

此外,云智慧还联合了基于“规定 + 算法 +LED 定位”的主动预警、告警性能为运维人员提供更疾速、更精确的故障发现与处理伎俩,从而晋升了整个业务零碎的可用性。如:当产生温度预警 / 告警时,云智慧对立运管平台可通过 LED 灯的闪动或高亮给予运维人员直观的批示;此外,零碎还能够通过 3D 可视化、2D 图表等人机交互界面,对数据中心内的全副资源及子系统进行集中管理,以及利用数据处理引擎对数据进行多维度的解决与剖析,一直对故障预警的时效性和准确性进行晋升;最初,还能够通过敌对的交互界面、集中统一治理、集中告警出现、多维信息交融、问题疾速溯源、故障影响判断等能力,真正做到对立平台界面的综合类监控交付。

  • 买通风火水电等各业余畛域工具墙,实现对立调度

数据中心的安保级别通常较高,监控不到位就会导致非法入侵、人员违规行为等危险行为,若未及时纠正标准,就会对数据中心平安可能造成严重威胁。

云智慧计划通过监控视频、红外遥感、人脸识别、门禁系统等性能对园区各进出场景跟踪记录,针对异样人员行为剖析及跟踪正告。零碎通过巡逻人员的手持设施记录每个巡逻点的精确工夫和数据,从而使得巡逻人员依照手持设施中的巡逻打算依序巡逻每个巡逻点,失去数据采集后再把手持设施的信息录入到零碎,从而失去精确全面的巡逻数据。

下图为云智慧具备代表性的案例截图。在理论企业落地过程中,以下性能能够进行组合分拆,以满足企业对平安治理的个性化要求。

  • 左上:对巡逻人员的进出工夫以及以后所处的地位进行监控;
  • 右上:提前制订和公布巡检打算和设计巡检门路,设定巡逻点地位;
  • 左下:对巡检人员的理论巡检门路以及各巡逻点的理论实现工夫进行跟踪,一旦超时将触发超时告警;
  • 右下:在一些具备区域平安管控的场景下,能够对不同级别的巡逻人员设定电子围栏,一旦越线将触发越权告警。

  • 以工单 / 事件 / 流程为载体实现标准化调度

云智慧为企业提供了内容残缺、流程规范的运维服务性能,以实现数据中心日常运维的流程化、标准化、精细化。此外,云智慧通过帮忙企业建设疾速响应并适应企业业务环境及倒退的基础设施运维模式,实现类比 ITIL 的流程框架、运维自动化治理,从而转变企业基础设施运维的环境,使得基础设施运维各部门和 IT 运维部门领导者可能领有对立的语言、对立的界面来面对各项挑战以及了解新变动所带来的影响。与此同时,云智慧会为企业提供丰盛的挪动端利用,实现多渠道协同办公。云智慧的挪动利用能够兼容市面上绝大多数的挪动平台——无论是操作系统还是终端设备类型,给企业带来更便捷的应用体验。

  • 以数字孪生 /3D 全景可视化 / 全资源可视化等解决认知难题

云智慧利用弱小的可视化引擎,将多维度动态数据融入到数据中心园区、楼宇、设施、设施、管路、桥架等实物 3D 之中,实现全元素三维可视化。此外,云智慧提供了弱小的 2D/3D 可视化主动切换展示、自定义路线巡游、第一视角参观性能,并且可通过鼠标、键盘的简略操作即可实现数据的查问、检索、分类、定位等性能,大幅地改善了一般动态界面的枯燥、交互性差、操作和信息传递效率低、决策和响应度慢等问题,让运维工作变得简略、直观、灵便、高效。

  • 自研数据中心容量治理,掂量数据中心“绿色”是否达标

正如行业趋势剖析中提到的“数据中心面临日益增长的资源和电力需要”,电力效率以及功率密度方面的问题已成为影响企业可继续倒退的重要因素,因而容量治理成为数据中心经营的重要关注点。

云智慧解决方案通过内部采集设施、设施进行数据整合,并通过后盾 AI 算法计算出数据中心实时的 PUE、CLF、PLF、WUE 等能耗指标;此外,还能够按设施类型、机房区域等形式进行分类统计分析,必要时可造成热度图、趋势图。与此同时,零碎可能将能耗老本、能耗组成状况进行 ECC 大屏等多种形式展示,同时可依据变化趋势及时地进行信息预判,联合特定的算法模型剖析效率损失的起因,帮助企业从整体上改善效力。

  • 以数据做底座、算法为撑持、报告为进口,为决策提供无力根据

云智慧通过“数据 + 算法 + 报告”相结合的模式,为决策提供无力根据。例如:云智慧反对对资源的兼顾、布局与治理,实现现有资源的充沛评估、利用。此外,还可通过丰盛的筛选条件,疾速、精确定位业务可用区域,进步资源利用率。在资源规划设计或割接环节中,云智慧可进行资源预调配(演练),模仿构建计划,依据算法引擎进行预部署的主动演算,生成打算计划与剖析报告,还可模仿故障影响范畴,实现关键设备影响剖析的疾速判断,并生成影响计划与剖析报告。通过上述这些伎俩能够帮忙企业进步 SLA、躲避危险、提供牢靠的决策依据。

案例分享

  • 某五大行之一总行数据中心(两地三核心)

  • 某保险公司数据中心监控治理平台

  • IDC 智能综合运维服务平台

  • 某商业银行综合平安管控平台

  • 某航空公司上海生产核心

计划劣势

  • 数字孪生之资产全生命周期 自动化 管控

首要劣势在于该计划以资产全生命周期自动化管控伎俩搭建企业数字孪生的数据根底,包含自动化资产治理与动静可视化资源监测两方面:

  • 数字孪生之全生态监控

第二个劣势点,一方面在于通过全生态监控撑持数字孪生的感知、监测诉求。云智慧的产品内置数百种采集器以及泛滥支流厂家的常见设施模型,反对上万个指标监测,对 IT 基础设施、动环、物联网等设施进行分布式采集;另一方面,反对数据中心环境、物理设施到利用性能的端到端全视图;此外,平台反对人员轨迹、链路、能耗的对立管控,从而实现 100% 全生态监控。

  • 数字孪生之多维出现

第三个劣势点在于其丰盛的展现能力:既反对传统 2D 环境下的各种图形图表,也反对 3D 环境下的 BIM、虚拟现实,同时,云智慧还能够与 LED 硬件进行交互,实现与事实世界联动;平台为客户提供了基于 AI 算法的容量预测、沙盘演练伎俩,晋升数据中心客户应急调度、预测性保护能力。

写在最初

近年来,在 AIOps 畛域疾速倒退的背景下,IT 工具、平台能力、解决方案、AI 场景及可用数据集的迫切需要在各行业爆发。基于此,云智慧在 2021 年 8 月公布了 AIOps 社区, 旨在树起一面开源旗号,为各行业客户、用户、研究者和开发者们构建沉闷的用户及开发者社区,独特奉献及解决行业难题、促成该畛域技术倒退。

社区先后 开源 了数据可视化编排平台 -FlyFish、运维治理平台 OMP 、云服务治理平台 - 摩尔平台、 Hours 算法等产品。

可视化编排平台 -FlyFish:

我的项目介绍:https://www.cloudwise.ai/flyF…

Github 地址:https://github.com/CloudWise-…

Gitee 地址:https://gitee.com/CloudWise/f…

行业案例:https://www.bilibili.com/vide…

局部大屏案例:

您能够增加小助手(xiaoyuerwie)备注:飞鱼。退出开发者交换群,可与业内大咖进行 1V1 交换!

也可通过小助手获取云智慧 AIOps 资讯,理解 FlyFish 最新进展!

正文完
 0