关于阿里云:从幕后走到台前过去十年我们在阿里云如何建设可观测体系

91次阅读

共计 7230 个字符,预计需要花费 19 分钟才能阅读完成。

作者:凌敏

稿件信息:

作者丨凌敏

采访嘉宾丨阿里云云原生可观测团队

嘉宾介绍:

司徒放,阿里云可观测技术负责人,资深技术专家

徐彤,阿里云可观测高级技术专家曹剑,阿里云可观测高级产品专家

王希正,阿里云可观测高级经营专家

IT 零碎的运维监控最早呈现在上世纪 90 年代。彼时,分布式架构正向传统的单体架构收回挑战,其带来显著劣势的同时,也为零碎开发和运维带来了新的难题。在这一背景下,IT 人员开始引入监控技术,观测主机上的利用运行状况,及时定位问题。

随着分布式系统、微服务、云计算技术衰亡,IT 零碎产生多轮演进,简单的运维环境对监控提出了更高的要求。2018 年,CNCF 将可观测性引入 IT 畛域,取代监控。可观测性也一跃成为云原生技术畛域最热门的话题之一。

5 年后的明天,可观测性技术早已从晚期的运维排查问题工具,逐步进化成业务生产过程中的生产力工具。Gartner 更是将利用可观测性列为“2023 年十大策略技术趋势”,并示意“如果可能在策略中予以布局并胜利执行,可观测性利用将成为数据驱动型决策的最弱小起源”。

作为阿里巴巴团体最早的监控 & 可观测团队,云原生可观测团队早年打造了 EagleEye(鹰眼)作为分布式调用跟踪零碎利用于阿里外部各业务线,随后将该工具进行产品化,联合云上客户的宽泛需要,打造出了阿里云利用实时监控服务 ARMS。

那么,阿里云云原生可观测体系的建设背景与历程是什么样的?可观测体系建设的重难点是什么?如何从外部自研走向产品化?2023 年,企业和开发者应该如何了解可观测性?在本期访谈中,InfoQ 有幸采访到了阿里云云原生可观测团队的多位核心成员,以期找到上述问题的答案。

01 阿里云云原生可观测体系建设历程

2010 年 4 月,Benjamin H. Sigelman 等人在 Google Technical Report 上发表了一篇名为《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》的论文,介绍了 Google 生产环境中大规模分布式系统下的跟踪零碎 Dapper 的构建和部署教训。这篇论文正式揭开了分布式链路追踪的技术大幕,也为起初涌现出的包含 EagleEye 在内的分布式调用零碎提供了灵感源泉。

分布式链路追踪 EagleEye 的设计与实现  

2012 年,阿里的淘宝电商业务正处于高速增长期,为满足业务疾速迭代的需要,撑持一直进步的交易量,阿里采纳微服务架构对整个业务逻辑做了一次重构。微服务架构在性能、可维护性和可用性上带来劣势的同时,也带来了四大难题:

  • 故障定位难 :一个简略的下单购买操作背地是由十几个甚至数十个微服务共同完成的,这些微服务又由不同的团队负责,微服务的适度协同带来的后果就是,一旦呈现问题,须要十几个团队一起来解决;
  • 容量预估难 :在大促场景下,过来只需依照预估的流量与以后零碎的单机压测容量做比照,再将所有的零碎按比例去扩容即可,但在微服务架构下,每个零碎在外围链路中的参与度、重要性都不同,无奈进行等比例的扩容;
  • 资源节约多 :这也是容量预估不准造成的结果,同时,资源节约多也会引发性能优化难的问题;
  • 链路梳理难 :简单的微服务体系,让各个微服务零碎的负责人很难梳理分明每种业务的上下游细节逻辑对本身零碎的影响。

“我印象比拟粗浅的是,过后淘宝曾经迭代出了上百个利用,但却没有一个业务架构师可能讲清楚整个业务的零碎架构是什么样子的。正是在这个时候,咱们遇到了 Google 的《Dapper, a Large-Scale Distributed Systems Tracing Infrastructure》这篇论文,咱们参考了 Google 的次要思维,在阿里外部做了落地实际。”阿里云可观测技术负责人司徒放回顾道。

正是在这一背景下,EagleEye 应运而生。EagleEye 是一个以链路追踪技术为外围的监控零碎,通过收集、存储、剖析分布式系统中的调用事件数据,帮助开发和运维人员进行故障诊断、容量预估、性能瓶颈定位以及调用链路梳理。2012 年,EagleEye 第一次发版,EagleEye 1.0 可能构建链路跟踪外围体系,提供调用链与离线报表服务。

过后虽未呈现可观测性一词,但业界已将其合成为三个更具体的方向开展钻研:Metrics(指标)、Tracing(链路追踪)以及 Logging(日志)。这三大方向也是尔后 OpenTelemetry 协定定义的可观测性三大支柱。

最开始,EagleEye 次要关注 Tracing 畛域,这也是业界比拟晚期的大规模 Tracing 实际。“EagleEye 解决了阿里过后微服务架构下的剖析和诊断挑战,有很多阿里外部研发人员在利用它。”司徒放说道。

2013 年上半年,EagleEye 买通了淘系所有常见中间件的调用数据,利用负责人能看到本人的零碎在整个链路上的执行状况,为大促和单元化的容量布局、依赖剖析提供了数据撑持,并具备了疾速定位分布式系统故障的能力。

EagleEye 的第一个重要倒退契机是淘宝的双十一大促,这是 EagleEye 的首次大规模利用。也是在这时,EagleEye 上线了实时链路大盘,为全链路压测提供压测透传和链路起源流量剖析。

过后,为了提前做好零碎容量的筹备,阿里对线上零碎进行了全链路压测,而全链路压测的底层其实是与 EagleEye 的 Tracing 能力严密相干的。于是,EagleEye 从 Tracing 畛域切入到 Metrics 和 Logging 畛域,通过 Traces 去做流量级别的、精准的 Metrics 数据统计,用来剖析上下游利用的依赖关系,提供一个全局流量拓扑。同时形象了一个通用的实时日志解决零碎,用来做通用的日志采集、计算、存储计划,进一步晋升问题排查效率。

EagleEye 1.0 之后,团队陆续公布了 2.0、3.0、4.0 版本,围绕链路跟踪的外围能力,EagleEye 逐渐构建了集监控、诊断、优化于一体的综合性服务平台:提供多维查问与实时报表以及数据分析能力;基于内存统计,提供精准实时报表与系统监控服务;基于链路追踪,提供单机诊断与业务定制化服务。

脱胎于 EagleEye,2017 年,云原生可观测团队打造出了利用实时监控服务 ARMS,并于 2022 年 6 月推出阿里云云原生可观测套件(Alibaba Cloud Observability Suite),打造云原生时代残缺可观测数据生态与产品套件。

从外部自研工具到产品化  

EagleEye 从最后的外部自研工具走向产品化,是一个自然而然的过程。

在自研体系下,EagleEye 的呈现为阿里外部升高了老本和危险,进步合作效率。同时,在云原生改革的大趋势下,云原生可观测团队也越来越粗浅地意识到,PaaS 类产品肯定得是凋谢的,是基于规范和开源的。联合云上客户的宽泛需要,云原生可观测团队将 EagleEye 进行产品化,打造出了阿里云利用实时监控服务 ARMS。

“阿里外部的技术栈是比拟对立的,在外部业务场景中,咱们采纳齐全自研的状态去撑持业务没有任何问题。但内部客户的技术栈百花齐放,要求所有人学习和应用咱们的技术体系并不事实。于是,咱们的整个可观测体系从自研转向了开源的 Prometheus。”司徒放提到。

Prometheus 最后是由前 Google 工程师在 SoundCloud 上构建的开源零碎监督和警报工具包,自 2012 年创立以来,许多公司和组织都采纳其作为监控告警工具。2016 年,Prometheus 退出 CNCF,成为继 Kubernetes 之后的第二个 CNCF 托管我的项目。

现在,Prometheus 曾经成为云原生时代的可观测事实标准。依据 CNCF《Cloud Native Observability MicroSurvey》考察,84% 受访者在可观测技术栈中应用 Prometheus。

司徒放示意,转向 Prometheus 架构后,再去扫视挪动端、利用、中间件、云服务的基础设施监控等子畛域,咱们发现采纳凋谢的体系能够让整个数据模型失去对立,整个实体关联也更加简略。“这和过后秦始皇对立六国后履行的书同文、车同轨、度同制情理是一样的。咱们的整个可观测体系对立后,买通了很多数据孤岛。”

在转变的过程中,云原生可观测团队也面临着来自技术与思维的双重压力。

技术上,过来团队撑持外部业务利用,可观测工具可能保障运行稳固、疾速响应业务需要即可。但可观测云产品的市场需求多元,对易用性、可扩展性,以及利用集成的能力要求较高,并须要满足数据安全规范。思维上,过来团队着重关注技术,但当初也须要思考如何做好商业化产品,须要设计产品的差异化能力,以及盈利模式、用户增长。

“这些对于咱们团队来说,都是过来没有经验过的问题,我认为这个过程也是一个很好的机会。可能把本人善于的技术打造成一个可能会被寰球各个企业宽泛应用的产品,并与其余世界一流的产品开展竞争,对于程序员来说,这应该是最大的光荣和幻想。”司徒放说道。

在 Gartner 公布的《2022 Gartner 利用性能监控与可观测魔力象限》中,Gartner 将阿里云定义为此魔力象限中的细分畛域者,并给予了高度评价。

以后,阿里云可观测产品由外围产品利用实时监控服务 ARMS、可观测监控 Prometheus 版、可观测可视化 Grafana 版、可观测链路 OpenTelemetry 版联结云监控 CMS、日志服务 SLS 独特组成,以公共云 SaaS 服务、混合云不同产品状态为不同规模、不同业务需要的企业提供开箱即用的可观测服务。其中,阿里外围容器调度(千万核规模)以及超过 50 款云产品,全面基于 Prometheus 构建可观测体系。

在提到与同类型产品的差异化时,阿里云可观测高级技术专家徐彤示意,阿里云可观测产品及解决方案的显著劣势是上下游产品生态的反对,联合阿里云整个原生生态,用户能够在一个对立的平台上实现对云计算利用的全方位可观测,效率与便捷性大幅晋升。过来,EagleEye 在阿里外部积攒了大量运维场景教训,脱胎于 EagleEye,ARMS 也积攒了丰盛的行业利用与运维教训。

此外,阿里云可观测产品状态丰盛,可观测监控 Prometheus 版托作为齐全兼容开源 Prometheus 的全托管监控服务,提供开箱即用的 Grafana、智能告警等组件,并预置常见场景模板。用户无需关注零碎搭建与日常保护,无效晋升运维监控效率。在开源凋谢方面,阿里云可观测产品兼容业界通用的 OpenTelemetry 规范,反对多语言协定及 SkyWalking、Jaeger 平滑迁徙。

“凋谢与集成是咱们很重要的能力,咱们保持将开源规范和产品集成到平台,不便用户在现有产品的根底上进行拓展和优化。同时咱们也在踊跃奉献开源社区,与业界独特推动云原生可观测生态倒退。”徐彤介绍道。

下一阶段,阿里可观测产品体系的重点是数据的集中管理和关联,整个零碎端到端的剖析将更加全面、残缺、对立,同时联合可观测上游服务与人工智能技术,从监管控一体化走向智能化运维。

02 云原生可观测团队:从“幕后”走到“台前”

从打造 EagleEye 利用于阿里外部各业务线,到打造阿里云利用实时监控服务 ARMS 服务更多企业,云原生可观测团队基于可观测行业趋势,将开源我的项目与商业产品相结合,帮忙越来越多的企业取得残缺的可观测能力,节俭运维老本。

徐彤示意,随着以后千行百业以及云产品对可观测的器重度一劳永逸,可观测在云原生体系中所表演的角色也产生了变动,很多团队会被动找过去,一起建设本人的可观测能力。“在过来,我常常说咱们团队是幕后无名主角,但当初,咱们也会开玩笑说,本人曾经缓缓地走到了台前男二号的角色。大家更器重咱们,咱们也会提供更多、更重要的能力,二者联合,越走越远。”

而 EagleEye 既是阿里云云原生可观测团队打造的第一个产品,也是云原生可观测团队最后的名字,其诞生背地的逻辑其实是客户需要和行业趋势决定的。

据司徒放介绍,企业做云原生数字化转型会先抉择做容器化、微服务架构的革新,这也导致整个开发、运维体系以及合作模式产生天翻地覆的变动。在这一背景下,云原生团队开始进一步孵化出可观测团队。目前,云原生可观测团队次要由包含利用监控、前端监控、链路跟踪、告警治理、Prometheus、Grafana 在内的技术团队,以及经营、解决方案等团队形成。“在整个云原生大团队中,可观测团队的定位就是为咱们的客户提供一套对立、高效、易用的原生可观测解决方案。在日常工作中,云原生可观测团队与容器、存储和网络、平安、解决方案等多个团队密切协作。”

作为可观测产研团队的重要组成部分,经营团队也在其中扮演着重要作用。

“云上产品和服务越来越走向 PLG(Product Lead Growth)模式,经营也变得更加重要,作为足球比赛中‘中场’的角色,即连接用户需要与产品服务。”阿里云可观测高级经营专家王希正认为,在市场侧,从利用性能监控畛域到可观测,市场产生了很大变动,经营团队须要构建全新的技术内容,帮助开发者疾速找到解决本身问题所匹配的技术计划,并配套开发者体验场景及优良的文档能力,让开发者可能自体验自生产自服务。在服务侧,可观测产品作为数据汇聚地,如何出现数据从而辅助决策至关重要。经营团队须要提供丰盛的模板,帮忙开发者自助享受云上可观测能力,真正用起来、用得好。

作为“中场”,经营团队还须要领有杰出的数据洞察能力,发现不同业务场景下的支流用户需要及体验问题,驱动产品研发为用户提供更好的服务。“将来,B 端产品尤其是以 SaaS 交付形式提供的产品,产品驱动增长的 PLG 模式将成为支流。经营同学除了做好增长外,更多须要深刻到本身产品的应用体验中,基于市场的洞察推动产品改良到一个当先的地位。这也会是整个团队的一大助力。”王希正总结道。

03 可观测力即生产力

2018 年,CNCF 将可观测性引入 IT 畛域。5 年后的明天,可观测再次取得了宽泛关注,并被 Gartner 认定为“2023 年十大策略技术趋势”。Gartner 示意,可观测性使企业、机构可能利用数据来取得更加显著的竞争劣势,在最失当的场景挖掘出数据背地的策略价值,以便布局与决策策略方向而不是自觉的疾速口头。因而,可观测性利用作为一种弱小的工具,如果可能在战略规划过程中充沛应用,这将成为数据驱动型决策最弱小的反对。

阿里云可观测高级产品专家曹剑认为, 与 5 年前相比,以后可观测市场正迈入一个全新的阶段——数据为王。

随着千行百业进行云原生架构转型降级,可观测数据量失去了指数级增长,数据之间的关联剖析以及传输也带来了可观测数据模型的标准化,标准化也会反过来促成数据的上下游合作,并进一步催生出多个细分市场。比方,有些厂商专门做可观测数据的采集,有些厂商专门做可观测数据的编排,等等。而在平安、软件品质等场景下,新的可观测产品也瞄向了新的客群。“当初不单是运维同学在利用可观测产品,经营、市场以及管理者,都开始应用可观测工具。在这样一个数据为王的时代,谁可能把可观测的数据价值开掘进去,谁就可能给用户提供更好的可观测服务。”

与此同时,随着国内云服务越来越成熟,开发者用云深度减少,可观测作为具备代表性的云服务,曾经从晚期的运维排查问题工具逐步变成了业务生产过程中的生产力工具。

王希正示意,从近些年国内外可观测的倒退来看,有一个很显著的趋势是, 企业的可观测力即生产力:

从云产品视角看,以后云计算不再只提供资源服务,越来越多的云产品可能帮忙企业更 + 高效、更易用、更平安的创立云原生利用,使业务研发模式产生粗浅的改革,各个云的组件自身都须要提供开箱即用的可观测力。以 MQ 为例,它其实代表了企业业务数据的流向,云上的 MQ 通过 Prometheus+Grafana 提供的可观测能力能够疾速对线上音讯生产问题进行排查和定位,还能通过剖析音讯流量变化趋势、流量散布特点或音讯体量,帮忙客户更好的进行业务布局,这也驱动了可观测的倒退。

从开发者及企业视角看,构建可观测力不止是运维或者 SRE 部门的事件,越来越成为企业业务决策的一个方向。对于产品业务部门来说,可观测可能将业务数据与 IT 性能与指标关联,是 PLG 产品的必备条件;对企业管理者来说,可观测产品有助于构建高效的 Issue to resolve 流程,为 IT 和业务提效。

“整体来说,驱动可观测增长的重要动因理论是以后越来越强烈的市场竞争以及高效的研发模式,从过来的月度发版到很多业务的周迭代,势必要引入可观测能力去被动发现流程与过程问题,而不是在问题呈现后才去解决。”王希正总结道。

04 写在最初

2023 年,可观测性技术还将继续地倒退与演进。

将来,AI 驱动的可观测将失去更多利用,并对数据进行了更加高效的整合,故障预测、异样检测、自动化业务都会逐渐变得智能化,能够更好地降低成本。同时,随着低代码的利用更加宽泛,企业运维门槛升高,可观测性技术也需做好迎接这一趋势的筹备。此外,用户对平安隐衷爱护器重度一劳永逸,将来的可观测产品设计中,也须要更加重视合规性与安全性,充沛爱护数据。而在实时性方面,随着应用程序以及基础设施建设欠缺,可观测零碎实质上等同于大型数据处理系统,如何更快、更稳固地解决数据也是从业者须要思考的课题。

徐彤示意,下一步,云原生可观测团队会重点关注几个方向:

  • 可观测性技术演进 :继续关注可观测畛域的技术动静,并与开源我的项目以及行业标准相结合,优化现有产品。同时摸索 AI 技术在可观测畛域的利用,帮忙用户实现更加智能的自动化运维。
  • 可观测性体系化建设 :以后的可观测产品次要聚焦在运维监控阶段,在整个软件生命周期的治理中地位偏后,须要联合其余技术持续往前走。
  • 解决方案 :每个行业在不同阶段都有本人的可观测解决方案诉求,须要深刻理解各个行业的痛点以及诉求,为用户提供一站式的可观测能力。
  • 继续经营 :增强经营动作,帮忙用户更好地了解和利用可观测性技术。
  • 全球化 :关注全球化的可观测性诉求。

点击此处立刻收费试用

正文完
 0