关于devops:阿里云技术专家杨泽强弹性计算云上可观测能力构建

2022 年 7 月 4 日，【可观测，才牢靠——云上自动化运维 CloudOps 系列沙龙_第一弹】正式推出。实现和保障系统的高可靠性和高稳定性，是上云后大家最关注的两项重要指标。如何通过云上的自动化 CloudOps 产品体系继续地进步可靠性和稳定性，是研发和运维须要共同努力的重要方向；继续晋升可观测性则是达成指标的最间接和最无力的伎俩之一。

阿里云弹性计算 CloudOps 系列沙龙也将“可观测性与可靠性”作为第一弹的主题。本次沙龙直播笼罩四天，首位分享的嘉宾是阿里云弹性计算 SRE 技术专家杨泽强，他带来的主题分享是《弹性计算云上可观测性能力构建》，以下是他的演讲内容整顿，供大家阅览。

01 Why Observe？

可观测最早起源于农业时代气象观测，起初的电气时代、自动化时代都存在可观测性产品。管制实践中的可察看性指零碎能够由其内部输入推断其外部状态的水平，零碎的可察看性和可控制性是数学上的对偶概念。

以汽车为例，在驾驶过程咱们无奈间接感知到汽车零碎的外部状态，而通过仪表盘能够获知以后发动机的转速、速度、油量以及其余零碎的运行状态。

软件工程里，通过采集 logs、metrics 和 traces 三个维度来了解零碎外部状态，即为可观测性。

可观测性对于软件全生命周期有着极大价值。能够通过可观测性查看以后零碎负载、异样链路、异常情况以及报警等；能够基于可观测性做预警，再基于预警进行剖析，从而尽可能升高故障感知工夫和定位工夫，最终缩短故障 MTTR。

可观测性是软件系统稳定性保障的根底。而从软件工程整个视角看，可观测性可能提供的远不止稳定性保障。

软件工程最晚期的需要分析阶段，能够通过可观测性进行容量估算评估；CI 阶段能够进行研发品质管制，比方构建胜利、测试覆盖率等；交付过程中，能够通过可观测性对交付品质进行保障；同时老本和平安也能通过可观测性失去无效管制。

从软件的整个生命周期来看，如何构建本人现实的可观测性模型并没有标准答案。然而从单体利用或分布式应用到微服务等典型的软件架构来看，能够形象出一个规范模型，如上图，由下至上分为 5 层：

⚫ 资源层：包含主机、存储、网络、Runtime 等。
⚫ 平台层：包含 RPC、DB、音讯、缓存、调度等。
⚫ 应用层：包含可用率、时延、谬误数、流量、饱和度、日志等。
⚫ 产品层：包含订单量、订单成功率、生产成功率、生产耗时等。
⚫ 客户层：包含业务延续性、SLA、拨测等。客户层是最容易被忽视但极具价值的一层。咱们须要更多关注到客户业务的连续性、从用户视角如何应用可观测能力等。

以后，可观测性技术体系的生态和产品曾经非常丰盛。Logging 侧有 Logstash、iLogtail、SLS 等，Metrics 侧有 Prometheus、Grafana、Kibana 等，Tracing 侧有 Elastic、Opentemeletry、Skywalking 等。

构建可观测性过程中如何选型没有标准答案，须要依据本人的理论需要来抉择。

02 Observability on Cloud

2011 年，弹性计算可观测性上云的最后阶段，可观测性体系缺失，次要为单体利用模式，只有几个监控预警；2016 年，预警接入阿里自研监控平台，次要实现形式是传统的监控零碎以及基于时序数据库的 metrics 采集和展现零碎；2019 年，阿里开始逐渐将 ECS 外围利用搬到云上，基于云构建体系，包含云监控和 SLS；2021 年，阿里开始了云原生革新，目前曾经实现 90%左右的革新。另外，咱们也整在云原生的根底上将技术体系改为开源的规范技术体系。

云上的弹性、可靠性以及人造具备多地区隔离等个性，为监控平台提供了极大的劣势。另外，云原生的技术始终紧跟业界最新开源规范，其计划足够通用、足够先进，这也是自研平台研发节奏无奈相比的。

基础设施的监控次要通过云监控和 ARMS 两个产品来承载。ARMS 是一个 APM 工具，负责采集机器的 node 指标。

平台层蕴含诸多中间件、数据库等。此前，往往须要对接很多不同零碎，而在云上，ARMS 提供的原生技术 eBPF 能够无缝采集全副指标，比方黄金三指标、数据库、MySQL 等，最终生成规范的 metrics 数据。

应用层的黄金三指标、可用率、时延、错误率、调用次数等，能够通过 ARMS 和 SLS 互相补充来构建。

业务层 ECS 实例的生产成功率、耗时等数据，是基于 ARMS 、SLS 的 trace 能力和 metrics 能力来构建。

客户层次要基于 ARMS 和 SLS 构建。咱们须要从认知上进行转变，可观测性除了能够提供给 PM 应用，还能够提供给经营人员、财务人员以及管理者应用，它对于不同角色的意义和价值也不一样，这也是可观测性的价值所在。

上图为 ECS 整体的降级计划。

老平台的 Monitor 和 Sunfire 迁徙到云原生，次要为将根底监控迁到 CMS 云监控，将业务监控、利用监控迁到 ARMS ，trace 能力也会从最原始的日志编排服务迁到 ARMS trace 和基于 SLS 的日志库编排能力里。

除了云原生的开源技术标准，咱们还基于根底能力自研了自动化运维体系，比方告警、故障诊断和疾速复原等。底层能力应用 SLS 和 ARMS 对外的 Open API 来构建。

可观测性比拟好的观测视角是利用视角。另外，咱们也基于一些业务的特殊性，从业务维度构建可观测性，比方 ECS 有集群，则基于 cluster 维度来构建可观测性。

构建完所有的可观测性后，咱们还构建了对立的预警平台和自动化运维能力。

左侧最后的 Monitor 和 Sunfire 基于 log 构建，左边最新的可观测性零碎是基于 Prometheus 和 Grafana 规范的开源形式构建。实现了从自定义多样性到云原生，从繁芜简单到规范简化的转变。

以监控预警为例，上图左侧为上云之前的监控预警体系，由阿里团体监控、Sunfire 监控平台和 SLS 告警形成。

上云后的监控预警体系如右侧所示。基于 Metrics 数据能够产生标准化的数据计算，比方计算影响面。运维操作里的数据也能够通过动静计算得出，能够查看原始堆栈、现场的要害指标、变更等。另外，咱们还基于原生 API 构建了 owner 精准推送、预警标准化操作等能力。

03 Beyond Observability

从软件生命周期视角看，CI 过程中会有每日构建和测试以及实时治理大盘；自动化发布会基于 Prometheus metrics 数据格式做自动化卡点；运行期提供了自动化运维和 Chat Ops ；以后，咱们正在进行基于可观测性来建设平安度量和老本管制。

以效力和品质为例，DevOps 环中较为外围的两个环节是继续集成和继续交付，这也是间接影响软件工程品质的两个因素。

在继续集成方面，有 CI Dashboard ，每次输出代码都会触发 CI ，计算出代码行覆盖率、分支覆盖率、全复杂度以及胜利或失败等状态，如上图右侧所示。

在继续交付方面，自动化公布的难点在于如何授信，因而咱们实现了金丝雀公布。此外，咱们认为公布过程中也须要可观测性，因而，咱们将公布阶段的一些外围指标通过 metrics Dashboard 进行展现。同时会配合利用维度的 metrics 提供原子能力以及公布零碎的卡点，以实现公布自动化。

上述性能的实质为将可观测性左移，从软件工程运行期的可观测性移到代码公布和交付阶段，以保障交付代码品质。

可观测性的大部分利用场景是运维场景，比方查看容量、水位、预警等指标。上图为上云之后可观测性在运维方面的利用。

此外，可观测性还可使用于混沌工程，它是混沌工程的外围依赖。混沌工程的外围是故障演练机制，对服务注入故障，以查看是否出现异常。注入故障的前提为零碎为稳态，这须要依赖于可观测性体系查看 metrics 指标来确保。其次，摸索可能导致不稳固的因素时，须要通过可观测性来比照差别点，通过查看外部哪些零碎、哪些环节有问题，发现外部真正隐患，实现提前的故障隐患开掘。

老本治理和平安可观测是咱们正在摸索的两个场景。

如何降低成本是管理者关注的重点之一。首先须要明确以后老本，上云之后可能会有混合云场景或多云场景，须要从多个中央查看财务及数据。能够通过可观测性获取零碎水位、资源耗费等状况，以进行下一步的老本优化。比方应用 SLS 会有很多日志存储，能够通过可观测性查看 SLS 使用率、哪些索引耗费资源等。

平安可观测性要求将平安前置，通过可观测性提前发现安全隐患，比方是否存在异样流量和异样攻打等，通过逐渐迭代欠缺平安体系。

04 Future

将来，可观测性的发展趋势为标准化与多样化。

可观测性将从多样化产品逐渐转化为标准化的开源规范模型。Loging、metris、tracing 三个方面开源以及商业化的产品曾经十分丰盛。然而，可抉择空间越大，做出决策或最佳实际的难度也更大。因而咱们认为将来须要尽快建设可观测性的规范体系，比方 tracing 的 OpenTelemetry，metrics 的 Prometheus，多数据源展现的 Grafana。阿里云也提出了 OPLG 模型，其中 O 为 OpenTelemetry， P 为 Prometheus， L 为 Loki，G 为 Grafana。

多样化指可观测性的应用领域将呈多样性倒退。从最后只观测单体利用，到起初的监控 APM 并逐步衍生出各种各样的监控场景，实现万物可监控、可观测。

Q&A 环节，观众发问

Q1 可观测性具体利用于软件开发的哪个阶段？

答：传统的可观测性个别利用在运维阶段，关注线上的零碎水位、监控运行等。而当初可观测性有左移趋势，在软件的架构设计、CI、CD 阶段都有利用，比方提供了 CI 大盘，交付和公布过程中有 metrics 指标的获取和自动化拦挡。

Q2 如何获取可观测性不同维度的数据？

答：资源和平台层，开源的 eBPF 人造具备采集数据的能力，可能采集 MySQL、Redis、Kafka 流量、node 数据等。产品侧的数据须要通过肯定的开发工作来采集。

Q3 阿里云的可观测体系建设应用了哪些商用产品？

答：有 SLS 和 ARMS 两个产品。SLS 既有 logging 性能，也有 trace 性能，另外它也能够构建 metrics 和 dashboard ，提供了残缺的闭环。
援用
ARMS 目前没有 logging ，只有 metrics 和 tracing，但它的劣势为费用低于 SLS。另外 ARMS 提供了残缺的 APM 工具链，不仅是 metric 这种数据，还有 insight 数据，比方能够看 JVM 的指标并进行剖析，还提供了 Arthas 的 profile 能力以及智能识别系统异样的能力。

Q4 Prometheus、Grafana 链路与 ARMS 之间存在何种关系？

答：没有间接关系。ARMS 提供了托管 Prometheus 的服务，与 Grafana 实验室有商业单干，Grafana 的局部能力会间接托管在阿里云 ARMS 上。ARMS 基于这两个托管能力，联合其自身的链路追踪服务，能够很好地将三者进行联合，产生 1+1>2 的成果。

Q5 实现端到端监测须要对立哪些指标体系？

答：首先，链路的外围指标不能丢，包含资源、平台、利用等。其次，trace 指标也是必要的，将端到端的链路串联起来是技术难点，能够通过 OpenTelemetry、Skywalking 等产品来实现。此外，黄金三指标、 web 服务基于用户侧的拨测能力以及用户视角的可观测性门路也是必要的。以购物下单为例，用户视角的残缺链路应该为从 C 端发动申请到下单实现领取整个链路相干的网关监控、领取监控、订单监控等串联而成，并且这些指标可能进行对立展现。点击这里，观看嘉宾的演讲视频回放。

近期流动预报

【自动化，才高效——云上自动化运维 CloudOps 系列沙龙_第二弹】来袭，就在 7 月 25—28 日，敬请期待。

自动化即是通过使用工具或零碎达到缩小、甚至是齐全取代人工的操作。在研发效力与运维工作中，自动化是降低成本、晋升效率必不可少的形式，自动化还能缩小人工带来的谬误，晋升团队满意度。因而，阿里云弹性计算云上自动化运维 CloudOps 系列沙龙，将以“自动化与智能化”作为第二弹的主题，分享相干思考与实际。

收费报名通道曾经开启！即刻扫描下方海报中的二维码报名，进群还能取得最新讲师 PPT 材料。

沙龙小 Tips：观看直播时在弹幕区提出本人的疑难，被讲师抽中答复问题的同学，还会取得加湿器等精美礼品哦！同时在直播完结时填写问卷，也有机会取得便携玻璃杯等多重好礼。

关于devops:阿里云技术专家杨泽强弹性计算云上可观测能力构建

01 Why Observe？

02 Observability on Cloud

03 Beyond Observability

04 Future

Q&A 环节，观众发问

近期流动预报

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于devops:阿里云技术专家杨泽强弹性计算云上可观测能力构建

01 Why Observe？

02 Observability on Cloud

03 Beyond Observability

04 Future

Q&A 环节，观众发问

近期流动预报

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复