关于运维:月活近千万连续-365-天无故障货拉拉怎么做稳定性指标度量

85次阅读

共计 6467 个字符,预计需要花费 17 分钟才能阅读完成。

一分钟精髓速览

每一位被故障折磨的稳定性负责人,都或多或少面临自证的窘境:如何证实往年的稳定性工作是杰出的?在无奈完全避免故障产生的前提下,如何证实稳定性保障工作的价值?在团队和工具尚不齐备时,如何高效率推动稳定性建设工作?

本期邀请货拉拉稳定性负责人,从全局视角分享如何在 2 年内从 0-1 建设稳定性度量体系建设的教训,零碎介绍稳定性指标度量的价值、落地办法及功效。

作者介绍

货拉拉技术稳定性团队负责人——李全

TakinTalks 社区特邀讲师。2021 年退出货拉拉,现任货拉拉技术稳定性团队负责人,主导了公司技术稳定性体系从 0 到 1 的建设,也曾作为核心成员深度参加了阿里本地生存技术危险体系建设,在应急响应、变更管控、大促保障等稳定性畛域有丰盛教训。

舒适揭示:本文约 5500 字,预计破费 11 分钟浏览。

后盾回复“交换”进入读者交换群;回复“0607”获取课件材料;

背景

“拉货就找货拉拉”,置信很多人都听过这句 slogan,也有不少人应用过货拉拉的搬家服务。货拉拉除了有大家熟知的同城货运、搬家等业务,还有许多其余业务场景,比方跨城大车、企业服务、零担,甚至还有汽车租赁、加油充电等。截至 2022 年底,货拉拉的业务范围已笼罩了中国边疆的 360 个城市,月沉闷司机数量达到了 68 万,月沉闷用户数超过 950 万。在这样的业务模式和业务规模下,技术稳定性的必要性和重要性是显而易见的。

我在 2021 年退出货拉拉,过后技术稳定性刚刚处于起步阶段,很多工作待建。通过 2 年的致力,货拉拉技术稳定性体系实现了从 0 到 1 的建设,整体故障数升高了 78%,同时 SLA 也从 3 个 9 晋升到了 4 个 9。明天的分享将联合过往在阿里本地生存技术危险体系下的教训积淀,以及在货拉拉的实际功效,探讨技术稳定性的重要性和建设办法。

一、为什么肯定要做稳定性指标度量?

1.1 指标:把抽象感触量化为绩效后果

咱们须要建设一套可能形容稳定性程度的一系列指标,这些指标就称之为稳定性度量指标。

回顾生存中的一些经验,你会发现要清晰地形容一件事件是有肯定难度的。举个例子,阿诺德·施瓦辛格大家应该都不生疏,要形容他的体型特色,可能很多人会用强健、高大威猛这样比拟含糊的词语来形容。但如果咱们用指标度量的形式来形容,比方身高一米九,体重 200 斤,加上其余更具体的数据,比方体脂率不到 10% 等,这样的形容会更加具体,并能够将其与其他人进行比照,他的强健和高大威猛就显而易见了。

回到咱们日常的稳定性工作中,比方去年你做了很多与稳定性相干的工作,过程也很顺利,积攒了不少教训,整体后果也不错,公司里的技术人员必定都会留神到这一点,他们会说“最近零碎很稳啊!”。然而作为整体稳定性的负责人,或者某个稳定性畛域的负责人,你不能间接向老板表白这种感触,而是须要将这种感触转化为绩效指标来进行表述。

因而,咱们须要建设一套稳定性度量指标,通过这些指标来形容零碎的稳定性程度。这些指标应该是可掂量、可比拟的,能够让咱们对系统的稳定性进行更加精准的形容和剖析,同时也能够为稳定性建设提供具体的指标和方向。

1.2 价值:推动稳定性体系向前演进

稳定性指标度量不仅能够帮忙分明地表白成绩,更重要的是它可能推动整体稳定性体系的提高。首先,它是一个十分弱小的监控工具,能够帮忙监测以后稳定性的状态。其次,它具备预警能力,能够提供数据供拆解剖析,找出以后稳定性的短板和亟待解决的问题。最初,咱们须要评估解决问题的危险老本,这将成为咱们下一阶段工作的指标。以往,咱们可能会在线上故障产生后能力发现问题,这是一种亡羊补牢的过程,而指标体系能帮忙咱们更被动、全面地对待问题。因而,稳定性指标度量的外围价值在于帮忙整体稳定性体系向前演进。

二、如何建设指标度量体系?

2.1 剖析以后痛点

货拉拉在初始阶段遇到了一些问题,其中包含以下几点。

首先,指标十分零散。公司可能有一些稳固的指标,但这些指标无奈追溯到最终目标,也无奈充分体现其价值。

其次,指标定义不够清晰。同一个名词在不同人的了解中可能有不同含意。

再次,指标数据不容易获取。须要通过梳理文本信息进行统计,但准确性和可操作性不易把握。

最初,很少有人将稳定性指标度量视为一个体系化的事件来做。通常只在年初或年初进行一次评估,而没有将其作为常态化、体系化的工作。

以上这些痛点,是咱们在做体系建设之初就思考到的,也明确了解决这些问题的重要性。

2.2 一些须要明确的准则

咱们须要明确指标度量是一项长期的工作,而不是一次性工作。同时,这些指标必须围绕指标建设,具备指标价值。在数据收集和剖析方面,咱们应尽可能应用平台工具,以防止苦楚的过程。正如后面所述,指标度量的外围在于建设一整套经营机制,定期观测剖析并发现问题,治理问题,将机制体系反馈到下一个阶段的口头中。

2.3 过程中的外围工作

2.3.1 定义指标

1)指标明确

在每个指标被定义进去之后,反诘本人这么一句话:指标定义进去到底是想要做什么?它想表白什么?如果能答复上来这个问题,答案也是本人能认同的,大概率不会有什么大问题。最终这些定义的指标须要进行公示并收集领导、产研同学的反馈。

2)划分层级

咱们须要从稳定性的 KPI 倒推,比方高可用性和业务连续性。从这些指标登程找到一级指标,比方故障数和不可用工夫,并在此基础上进一步拆分。拆分的逻辑基于稳定性的定义公式,即缩小问题产生的概率和放慢问题复原速度。只有逐层拆解,能力确保指标的充分性,而非间接定一个监控告警覆盖率或响应达标率。

3)体系视角

在定义指标时必须与以后的稳定性体系相结合,以确保指标定义可能欠缺地形容以后问题的状态。比方,一家刚起步的公司,不须要太多简单的指标,只须要定义一些可能形容最终稳定性 KPI 的指标;随着公司的倒退,工作会拓展到其余畛域,如应急响应畛域,那么就须要建设一套适宜应急响应体系的指标。最终,这些指标还须要反馈到整体的问题后果上。

在指标定义过程中,以上这三个点是十分重要的思路。

2.3.2 收集数据

1)平台的必要性

许多人都经验过应用 Excel 进行指标度量的阶段,这应该不会是什么美妙的回顾。尽管 Excel 功能强大,包含记录、计算和图表展现等等,但仍有许多问题是无奈防止的。首先是准确性问题,人工解决很容易出错,而且数据文件相互传递,会发现版本越来越多,各团队拿到的数据不统一,全局稳定性工作的权威性也会丢失。其次是效率问题,数据量大时,人工保护老本高,做数据挖掘剖析也会十分耗时。还有数据留存也是十分重大的问题。历史数据难以找到,监控零碎的数据存储也是无限的,无奈存储所有的监控数据……因而,尽管平台的建设须要过程,但它肯定是十分必要的一环。

2)平台建设思路

在制订指标度量体系时,首先须要具备横向的视角,相似于稳定性体系的视角。最后,公司可能只有一个全局指标的大盘或报表,如故障数、SLA、监控发现率、应急时效等。

随着业务倒退,须要无意识地将指标拓展到各个领域,如应急响应畛域、预案畛域、改良项等,让每个畛域都有其指标度量体系。这样能够更好地掂量各个领域的体现,并为将来的经营提供更精确的数据反对。

在每个畛域的建设中,还须要有纵深的视角,这对平台的落地是十分要害的。须要明确数据从哪里来,基于什么逻辑统计。例如在应急响应畛域,须要统计发现工夫,就要从故障复盘或者故障记录的数据里登程,做好相干原始数据的字段设计。

此外,还须要留神采纳后果指标和过程指标相结合的办法。后果指标是度量畛域体现好坏的指标,如后面提到的故障持续时间;而过程指标则帮忙咱们发现哪些方面须要改良,比方故障工夫过长到底是哪个阶段的工夫比拟长,在响应、发现、定位、解决等环节还能做哪些改良,能力真正帮忙缩小整个故障时长。

最初,维度下钻十分多,比方月份、部门。须要通过维度定义去有目的地剖析问题,发现问题所在,进行针对性的治理。

2.3.3 经营指标

指标建设并统计实现后,肯定要做好经营工作。而经营也须要分不同的视角。向上的视角包含年初布局、年终总结,以及给老板做阶段性汇报、某个畛域的汇报等。这有助于向上级领导展现公司稳定性的整体体现和各稳定性畛域的状况。

此外,还须要做对外的经营,这也是最容易被忽视的。技术团队的很多同学对稳定性不肯定十分理解,因而须要定期对外输入稳定性常识,以及区域 / 部门视角的阶段性稳定性报告。同时,也能够对标业内一线的公司,理解公司在行业内的程度,从而更好地优化本身的策略。

最初是对内的经营。团队内每个人负责的畛域不同,指标数据能够帮忙大家聚焦工作重点,也能够领导每个畛域的负责人做 KPI 拆解和复盘。这些都是十分重要的事件,有助于进步团队的合作效率和工作效力。

2.4 迭代与欠缺

每家公司的状况不同,阶段性的要害工作也有所不同。因而,在整体建设前须要思考和明确须要解决的痛点,并隔靴搔痒。这有助于确保指标建设的针对性和实用性。

须要特别强调的是,稳定性指标体系建设并不是一劳永逸的事件,相同它十分依赖后续的长期迭代不断完善。一方面,指标自身须要不断更新优化,以保障其与公司的理论状况相符。另一方面,整个体系也须要一直运作,以确保其不被工夫侵蚀。

因而,在建设稳定性指标体系后,须要制订长期的迭代打算,并定期对指标进行评估和更新。同时,还须要建设稳定性指标体系的经营机制,确保其可能长期有效地发挥作用。只有这样能力让指标体系在公司的稳定性建设中施展出最大的作用。

三、货拉拉是如何实际的?成果如何?

3.1 货拉拉的指标定义流程

货拉拉有一套十分清晰的指标定义流程。从稳定性指标登程,咱们设定了故障数指标。在这个指标背地,咱们还有一个简单的故障等级定义,依据受影响业务、影响面来辨别重大故障和个别故障。只管从故障数的体现来看,它们都是一个故障,但实际上影响是不同的。例如,去年的重大故障继续了一个小时,而往年的重大故障可能继续 30 分钟。

除了故障数指标,咱们还定义了间断无故障天数等具备里程碑或留念意义的指标,如 2022 年货拉拉达成了间断 180 天无故障,这在咱们制订指标之初是不太敢设想的。这些指标不仅仅是为了监控稳定性,也是为了激发团队的士气和自我晋升的能源。

随着工夫的推移,咱们在稳定性畛域梳理和倒退了许多畛域,如应急响应、变更管控、预案、复盘改良等等。为了缩短故障持续时间,咱们对整个生命周期进行了梳理,并对每个阶段的持续时间做了指标定义。货拉拉的稳定性指标体系建设十分重视细节和实用性,咱们统计指标是为了晋升稳定性,而非仅仅为了达到某个数字指标。

在货拉拉,每个步骤都须要有明确的文字输入,以确保指标定义的准确性和可操作性。举一个大家可能都会遇到的例子,在复盘过程中,咱们会对工夫点进行定义,例如故障产生的工夫。有时候这个工夫点很容易确定,例如监控曲线上涨的工夫点。但有些场景比较复杂,比方如果这个业务夜间是不提供服务的上午八点才有申请进来,那前一晚变更引入了问题,具体产生工夫如何定义就会有不同认识。在这种状况下,咱们须要对「故障产生工夫」这个字段进行解释,并给出一个正当和明确的定义。

为了保障指标定义的一致性和可管理性,货拉拉在每个畛域都会有文字积淀,包含分类、对外 Push 的指标名称、定义阐明、价值等。此外,还包含平台是否具备数据收集、计算剖析的能力,以及指标的计算形式等。咱们规定以系统监控的异样开始工夫为准,如无奈确定,则以影响第一例用户的工夫为准,最次以线下反馈的工夫为准。只管这个过程可能会比较复杂,但最终能够得出一个绝对正当的后果。

3.2 货拉拉的全局稳定性平台

在货拉拉,咱们搭建了一个全局稳定性大盘,其中蕴含全局的稳定性指标,以及其余一些畛域的指标,例如过程畛域、预防变更畛域、复盘效率等,局部指标目前处于建设阶段。

(货拉拉全局稳定性大盘)

在全局指标中,咱们重点关注一些有里程碑式意义的指标,例如无重大故障的继续天数。这个指标能够给人一种成就感,能让人直观感触到工作的成绩。此外,咱们还有一些趋势剖析,例如 SLA 指标趋势,能够帮忙咱们及时发现问题并采取相应的措施,以保证系统的稳定性和可靠性。

(货拉拉预案平台报表)

在单个畛域中,例如预案畛域,也有相应的工具和报表。在预案平台上建设报表,能够帮忙查看整体预案的状态,以及整体预案合乎预期的比例等信息。咱们还能够依据部门或其余维度进行排序。

3.3 打造稳定性文化

后面讲到了经营有多个角度,对上和对内都是必须的、有要求、有压力的管理手段,这里不做赘述。次要分享一下作为负责全局稳定性的团队,如何在公司外部使用数据营造稳定性文化氛围。

首先,咱们须要打造一个 IP,通常这个 IP 是一个虚构的角色,比方在应急响应畛域有一个 NOC 的角色。在这个 IP 下,咱们明确经营方向,如货拉拉的周期性全局总结、部门总结,以及重点治理专项和平台能力建设等。明确这些系列后,在咱们经营的公司外部公众号上分栏目、分系列做推送。每个系列中的内容须要做一些编排,内容要适宜受众的口味,这些能够和经营同学多取取经。最初,只有继续输入能力让稳定性成为一个习惯,营造出一个比拟良好的稳定性的文化氛围,让大家感觉进步零碎稳定性是理所应当的。

3.4 建设功效

通过 2021 年至今 2 年多工夫的建设,货拉拉初步搭建起了指标度量体系,它帮忙咱们在过程中及时发现并治理稳定性薄弱点,帮忙整个稳定性体系向前演进。从稳定性后果来看,货拉拉的故障数呈显著收敛趋势,2022 年的故障数比 2021 年缩小了 78%;SLA 也从 3 个 9 的程度晋升到了 4 个 9。

当然,和业务侧讲这些数据晋升,他们是无奈间接感触到的。然而当你通知他们,相比前几年业务少挂了近 8 个小时,他们会显著感触到稳定性晋升带来的的价值。

(货拉拉故障数呈显著收敛趋势)

(稳定性团队获货拉拉外部个人最高荣誉)

四、总结与瞻望

4.1 总结回顾

稳定性指标度量能够简略类比体检,在体检之前,咱们须要抉择哪些科目进行查看,比方血常规等,每个科目上面还有很多的细项。而稳定性能够比作一个人的身体健康状态。整个稳固体系里有各个领域,每个畛域也有本人的指标。咱们须要采集数据并输入报告。然而,每个人在不同阶段要进行的体检我的项目可能是不同的,比方孕妇须要产检,老年人须要关注一些非凡状况。与咱们稳定性的倒退也相似,不同阶段须要关注的问题也不同。

有了体检报告之后,咱们须要看哪些指标有异样,并采取相应的措施。咱们还须要察看本人身体健康状况的趋势,如果越来越差,则须要加强锻炼、重视调节等。这个过程每年都须要进行,且有更审慎的人频率则会更高一些,目标是让本人的身材始终处于一个良好的衰弱状态,造成一个正向的循环过程。

而与体检不同的是,数据度量体系须要你承当多个角色,既是患者自身,也是医生,还是检验能力提供者,所以整体工作能够说是简单又沉重。

4.2 将来打算

接下来的工作将聚焦在三个方面。首先,咱们要深刻开掘数据的价值,不仅仅局限于外表数据,还须要深入研究数据背地的起因,中转问题的痛点。其次,对于预警,咱们须要更智能、更前置的指标异动检测技术,可能提前染指,防止问题的产生。最初,咱们心愿平台可能提供更弱小的能力,比方更灵便的指标组合和维度展现,帮忙咱们做更精准的剖析和经营工作,晋升效率。(全文完)

Q&A

1、请问如何量化稳定性的工作过程?在目前在降本增效的环境下,怎么均衡稳定性和老本?

2、货拉拉在团体层面是否有稳定性指标的运营者呢?比方谁当裁判员评判业务的稳定性指标是否达成?

3、请问稳定性建设要思考的范畴有多广,比如说有些问题可能是开发导致的,那么是否须要波及开发标准的制订,测试工作流程的制订?

4、稳定性体系建设落地的优先级个别怎么选定?如何依据业务的倒退阶段,打造更适宜本人的稳定性保障体系?

更多具体内容,欢送点击“浏览全文”,观看完整版解答!

增加助理小姐姐,凭截图收费支付以上所有材料

并收费退出「TakinTalks 读者交换群」

申明:本文由公众号「TakinTalks 稳定性社区」联结社区专家独特原创撰写,如需转载,请后盾回复“转载”取得受权。

本文由博客一文多发平台 OpenWrite 公布!

正文完
 0