乐趣区

关于运维:分布式数据中心节点多看托管云如何实现精细运维

随着用户数据中心节点的增多,在治理数据中心上,网络忽然中断、流量高并发、网络配置异样、网口硬件异样等问题时有发生。依附人工手动进行网络品质及故障剖析,并依据教训进行故障处理的传统运维形式,无奈全面笼罩数据中心呈现的问题。

为此,服气云托管云研发了网络全链路品质感知与剖析零碎。

该零碎可能综合运营商、物理网络、主机网络、VPC 网络等多层网络视角,为运维使用者提供一套全链路网络品质感知及智能剖析解决方案,无效晋升告警品质和告警后排障效率。

↑ 网络全链路剖析处理零碎能力

网络链路被动拨测

能够优化监测剖析及可视构造,并基于上下游关联告警主动开掘和聚合办法聚合缩减非必要的监测告警,分钟级发现网络通断及卡慢,在大量告警中疾速定位到根因,为 IaaS 管理员疾速梳理机房和各租户的网络连通性状态,为租户疾速梳理其虚拟机外部的网络状态报告。

↑ 提供全副探测及剖析后果的详情

↑ 提供虚拟机外部端到端 TCP/UDP 通信对的网络品质可视与剖析

基于 RTT 时延动静基线的危险预测

基于 RTT 时延动静基线进行危险预测,反对智能基线的主动学习,通过对失常状态下指标的历史体现,加以调整后作为基准线,与当前同样时段的实时指标做比照,能依据历史记录主动生成基线,并可依照业务周期潮汐变化规律,造成以日基线、周基线的数据比照,一旦实时数据大于基线比对的肯定范畴,即生成告警事件,胜利预测危险。

↑ 变化趋势预测

同时,该零碎还会一直进化,将来能够实现虚拟机外部的利用网络品质和平台 IaaS 层的一体化联动多模态剖析,实现更快的故障定界。

基于全量指标构建实体资源图谱体系,IT 运维人员在排障时,也可通过关联剖析在 5 分钟内定位到虚拟机外部、内部故障根因和处理倡议,且能利用常识图谱直观把握平台衰弱状态和故障影响面大小。

在网络资源配置举荐上,能够全面监控虚构网络拓扑、配置、流量、数据面状态等数据,利用多种机器学习办法实现精确的数据面性能压力预计。基于数据面性能压力及网络流量历史趋势,关联预测数据面性能极限呈现工夫点并举荐最优数据面资源配置。

以上就是对于服气云托管云上网络全链路品质感知与剖析零碎的介绍,该零碎能够帮忙用户升高网络故障率,实现数据中心的省心运维。

退出移动版