关于运维:为什么你的分布式数据中心需要一个全栈智能运维平台 - 乐趣区

出于对业务连续性和数据安全性的思考，越来越多的用户抉择建设分布式数据中心来作为灾备节点。而随着分布式数据中心越来越多，企业及其运维人员也面临越来越多的难题：

不足对立的运维治理

分布式数据中心没有业余运维人员，难以运维蕴含服务器、桌面等简单的 IT 零碎；IT 建设“各自为政”，不足对立的治理布局，运维治理老本高；办公终端部署在不同地理位置，保护周期长，造成业务中断，影响办公效率。

传统组网形式运维简单

分布式数据中心网络设备近程运维简单，难以对立策略下发，广域网链路、利用难以可视化监控；广域网平安流量无奈可视剖析，分支容易被埋伏威逼当做跳板攻打总部，且难以发现和处理。

不足对立的业务撑持架构

分布式数据中心业务和数据之间存在孤岛，导致其与总部数据中心无奈造成业务协同和数据协同；非云化数据中心更新难，不能无效保障利用、破绽、补丁的上传下达。

日益严重的平安威逼

分布式数据中心不足员工准入规定，导致其成为全网平安的薄弱点；如果能构建对立平安入口，就能够升高数据失落危险。

这些问题的存在，要求分布式数据中心要建设起一套对立的、全栈的、运维管理体系。

服气云托管云以稳固的通信网、粗放高效的治理服务信息系统和高科技 IT 设施设施为技术外围，以信息感知、趋势预测、资源共享为利用重点，联合互联网、大数据技术，集中海量数据跨行业、跨部门高度共享，实现对分布式数据中心业务透彻全面、实时智能的感知或预测趋势。通过对立治理、对立运维，以及标准化的运维流程和智能化的监控与事件剖析，进步运维效率、升高运维老本。

综合思考网络安全等级爱护要求和业务利用的理论需要，提供事先进攻、事中管制、预先审计全方位保障，进步信息安全防护能力。同时提供牢靠的数据备份与业务容灾机制，保障业务连续性。

服气云托管云采纳超交融架构，构建分布式云化资源池，交融计算、存储、网络基础设施资源，承载云计算治理平台以提供对的分支节点监控、治理及运维服务。

对于外围业务承载需要，云化资源池能够实现平滑的线性扩容，为业务零碎提供短缺的 IaaS 层资源，同时联合数据库治理平台、大数据服务、桌面云等提供丰盛的 PaaS 层服务。

托管云 SCC 管理中心对立运维、近程降级乃至利用推送，副核心无需业余 IT 人员，采纳自动化的伎俩，升高总部人员对大量边缘节点的运维的难度。分支节点开箱即用，新业务上线工夫缩短 70%，日常运维效率晋升 50% 以上。

托管云智能运维平台交融 AIOps 智能算法与专家规定，笼罩托管云 62%+ 故障问题，实现了各类网络、硬件可靠性、存储、计算卡慢问题的检测与剖析能力。

能够提前感知各类资源应用异样，实现了多项基于 AI 预测的调度优化能力，用于防止故障与卡慢问题的产生。

还能够提前预测虚构网络产生性能瓶颈和资源有余的危险，预测租户弹性 EIP 的流量大小并举荐带宽，辅助 SRE 提前执行带宽布局业务，防止因为 EIP 资源和带宽有余导致产生无奈新开租户或租户业务卡顿的故障。

一、OneAgent 能力

可观测性是运维的根底，它是通过查看其输入来掂量零碎外部状态的能⼒。为了实现零碎的可观测性，须要应用多个采集器，造成资源节约。

尽管国内外都有大量的数据采集器，但大多数采集能力繁多，比方 Telegraf 仅反对指标，Filebeat 只服务日志，OpenTelemetry 的 Collector 对非云原生的组件并不敌对，须要大量装置 Exporter 插件。

Octopus 是深服气 ACMP& 翻新研究院自研的可观测数据采集 Agent，领有的轻量级、高性能、自动化配置等诸多生产级别个性，能够署于物理机、虚拟机、Kubernetes 等多种环境中来采集数据，真正实现了一体化各种环境（传统环境，云 / 云原生）对立数据采集，一个过程或 Daemonset Pod 就能够实现全方位的数据采集，配置体验良好，可扩展性强。

二、资源预测和处理举荐

随着用户业务的倒退，托管云上的计算、存储等资源都须要进行相应的优化调整。资源的配置优化须要满足业务的两个要求：足够的资源，保障业务的稳定性；尽可能节约老本，但目前的难题是：无奈提前感知计算、存储资源的将来危险；无奈取得计算、存储资源将来危险的处理倡议；无奈对闲置资源提前预估，因此造成 IT 成本上升。

“资源预测”性能在减少用户对计算、存储资源将来危险感知能力的同时，提供了明确的资源配置倡议，升高因资源有余导致的故障产生频率，提前躲避因业务有余导致的业务中断或资源过剩造成成本上升的问题。

↑ 资源预测性能界面展现

另外，当资源过剩时，也可基于智能算法对闲置虚拟机进行辨认，回收对应的资源池或服务器资源。以检测深服气的客户业务零碎虚拟机 4K+ 为例，经虚拟机闲置辨认检测，发现并处理（含缩容和关机）130+ 台，0 负面反馈。

↑ 闲置虚拟机辨认性能界面展现

三、资源竞争感知与负载平衡能力

随着虚拟机的新建、开关机及其本身负载的变动，集群主机间总是面临负载不均问题，从而导致资源竞争，业务性能受到重大影响。

精确、及时甚至提前感知资源竞争，采取高效的负载平衡策略，可为外围业务提供长期稳固的性能保障。

为解决上述问题，该平台实现了 DRS：资源竞争感知与附在平衡能力。

引入多项外围指标剖析资源竞争与业务实在资源需要，基于负载变动预测后果搜寻最佳负载平衡策略。基于 AI 预测的 DRS 可疾速甚至提前感知资源竞争，及时进行负载调度，升高业务受到资源竞争影响的工夫。基于 AI 负载变动剖析与 Cost-Benefit 模型的调度策略，可大幅晋升单次调度带来的收益，缩小业务蒙受资源竞争的频率。

↑ 资源竞争告警与负载平衡调度倡议展现

以上就是对于分布式数据中心全栈智能运维平台的介绍，本期内容还有服气云托管云运维可控技术负责人 Will 的视频直播分享，在“深服气科技”公众号能够观看回放。