共计 2958 个字符,预计需要花费 8 分钟才能阅读完成。
近日,华为云利用运维治理平台 参加了中国信息通信研究院(以下简称“中国信通院”)主办的“稳保口头”的可观测性平台能力评估。通过中国信通院的测验,华为云利用运维治理平台满足云上软件系统稳固 - 可观测性平台技术要求,达到了可观测性平台技术测验的先进级程度。
作为云计算和软件的权威评估机构,中国信通院在可观测性平台和工具的评测中,以通信行业标准《可观测性平台技术要求》为根据,主观实在地评估了厂商的可观测能力程度。经中国信通院的粗疏评估,华为云利用运维治理平台在数据采集、数据处理、数据利用、平台运维这 4 项测验中,满足了可观测性平台先进级能力要求,这也意味着华为云在可观测性畛域曾经达到业内领先水平。
图 1 可观测性平台能力
华为云利用运维治理平台是云上利用的一站式立体化运维治理平台,实时监控利用及相干云资源,采集并关联资源的各项指标、日志及事件等数据独特剖析利用衰弱状态,提供灵便的告警及丰盛的数据可视化性能,帮忙用户及时发现故障,全面把握利用、资源及业务的实时运行状况。
图 2 华为云利用运维治理平台
一、牢固的基石——利用资源管理和采集治理
利用资源管理传统信息技术基础设施库(Information Technology Infrastructure Library,简称 ITIL)流程中面向基础设施资源的治理形式,易造成各运维服务之间数据割裂、信息不统一等问题。
华为云利用运维治理平台的利用资源管理(简称 CMDB)是基于 DevOps 理念打造的面向利用全生命周期的资源管理平台,是古代自动化运维的基石服务,对立集中管理资源对象与利用之间的关系。
利用资源管理 CMDB 以利用为核心,实现多层级利用、子利用、组件到环境的模型治理,建设利用与云资源依赖关系。
通过利用资源管理,能够找到利用与上级微服务以及部署在不同环境(开发环境、测试环境或生产环境等)下的资源实例,包含 ECS、RDS、ELB、CCE 等云服务实例,为利用监控、告警关联剖析以及自动化运维提供配置数据。同时也反对通过凋谢配置数据接口,辅助第三方零碎运维场景建设。
图 3 利用资源管理能力示意
采集治理
作为数据的起源,采集插件至关重要。华为云利用运维治理平台提供无侵入式采集插件,用户无需批改利用代码,只须要部署探针包,批改相应的利用启动参数,就能对利用进行全方位的数据采集,以便全面把握利用的运行状况,采集范畴包含但不限于:
1. 根底资源:蕴含云主机、容器、网络等;
2. 中间件:蕴含数据库、音讯队列、利用容器、存储、日志等;
3.IOT 设施:蕴含各种边缘设施、采集的数据范畴包含指标等;
4. 前端组件:蕴含 H5、ios、android、小程序等;
5. 后端组件:蕴含 java、python、nodejs、c#、go 等。
另外华为云利用运维治理平台还提供插件生命周期治理能力,不同的插件分工采集不同的数据,用户能够按需装置、降级、卸载各类插件。
二、弱小的外围——指标监控、云日志、利用性能治理
随着云原生技术逐步遍及,传统监控零碎正朝可观测性零碎演进,业界对可观测性的共识,是基于可观测性的三大支柱“metrics、logging、tracing”。
华为云利用运维治理平台将云监控服务(Cloud Eye,简称 CES)的指标数据、云日志服务(Log Tank Service,简称 LTS)的日志数据、利用性能治理服务(Application Performance Management,简称 APM)的性能剖析数据进行对立监控,从而提供了对云资源、利用和性能的全面监控和诊断。
指标——云监控服务 CES
云监控 CES 是华为云上资源监控的服务,提供 80 多种云服务、上千类资源指标,涵盖弹性云服务器、带宽、数据库等服务,满足用户各类云上资源监控需要。CES 可提供多聚合形式、最长六个月的历史监控图表,不便用户查看近半年业务监控数据。
除了云监控提供的云服务指标外,用户还能够自定义上报业务指标,通过 Open API、SDK 形式上报,可更全面、深刻地监控业务运行状况。
日志——云日志服务 LTS
在海量数据的时代,让贵重的原始日志数据躺在磁盘里日渐寂静,无奈在云时代“一展宏图”,齐全是湮没了日志数据的价值。而应用华为云日志服务就能够从我的项目初始便赋予日志数据搜寻、剖析和摸索能力,让日志数据活起来、变有用。华为云日志服务提供日志采集、秒级搜寻、海量存储、结构化解决、转储和可视化图表等各项能力,可满足利用运维、可视化剖析、等保合规等各类利用场景。
场景 1 日志剖析、保障系统安全:实时收集零碎产生的日志数据,对日志数据进行剖析、归档,反对每天百 TB 级日志的接入,十亿级日志秒级搜寻
场景 2 日志审计:通过实时收集日志,防止数据被误删和被非法入侵者删除的可能性,同时将日志转储长期存储,满足合规要求
场景 3 问题诊断:零碎呈现问题或故障时,通过日志疾速查问、精准定位问题所在
场景 4 零碎改良:通过阻塞记录发现站点性能瓶颈,优化缓存策略、数据传输策略
图 4 日志服务示意图
性能——利用性能治理服务 APM
在华为外部,有上百万微服务应用着利用性能治理服务 APM,在日常性能诊断、故障定位和排查等场景中,通过应用 APM 实现故障 1 分钟感知、5 分钟定界、10 分钟恢复能力的构筑。APM 无力地撑持了华为云、终端、车、能源等各类型产品的利用性能治理和日常运维保障。
当初,华为云将外部多年积攒的利用性能治理能力积淀到华为云利用性能治理服务 APM 上,向云上用户提供端到端的全链路性能治理服务,蕴含前端监控、利用性能监控、全面拥抱开源生态,帮忙用户在简单的业务环境下疾速发现利用性能问题,升高 MTTR(均匀故障复原时长),全面掌控利用的性能健康状况。
图 5 利用性能治理拓扑示意
三、丰盛的周边能力——对立监控大盘、容器洞察、告警降噪
华为云利用运维治理平台除了牢固的基石及弱小的外围,还提供了丰盛的周边能力。对立监控大盘集中管理云监控、云日志、性能、Prometheus 等多维度可观测性数据源,提供对立监控与剖析,用户能够将来自不同数据源定义在一张监控大屏中显示,对立治理告警等。
图 6 对立监控大盘示意
容器洞察
无缝对接华为云云容器引擎 CCE,基于原生 Kubernetes 容器和集群模型,用户可通过 Cluster、Namespace、Deployment、POD 和 Container 进行逐渐运维剖析,包含 Prometheus 监控、日志和性能治理等;反对将 Promethues 服务器近程接入(Remote-Write)到华为云利用运维治理平台,还可通过 PromQL 查问原生指标并配置告警。
图 7 容器洞察示意
告警降噪
华为云利用运维治理平台的告警降噪性能,提供分组、克制和屏蔽告警降噪策略,大大减少了运维人员须要关注的告警量,减少了要害告警、高优先级问题的关注度,突出告警的重点问题,进步告警的可靠性,缩小误判和漏警的状况,节俭了人力和工夫老本,进步了工作效率,无效保障系统的稳定性和安全性。
图 8 告警降噪示意
如果软件系统外部状况都不可观测,更无从谈起故障剖析和零碎改良等稳定性保障伎俩。依靠牢固的基石、弱小的外围及丰盛的周边能力,华为云利用运维治理平台助力企业进步软件系统的品质和效率,晋升用户体验和要害业务的稳定性,优化业务流程和方向,进步业务决策的品质。