关于运维:月活近千万连续-365-天无故障货拉拉怎么做稳定性指标度量
一分钟精髓速览每一位被故障折磨的稳定性负责人,都或多或少面临自证的窘境:如何证实往年的稳定性工作是杰出的?在无奈完全避免故障产生的前提下,如何证实稳定性保障工作的价值?在团队和工具尚不齐备时,如何高效率推动稳定性建设工作? 本期邀请货拉拉稳定性负责人,从全局视角分享如何在 2 年内从 0-1 建设稳定性度量体系建设的教训,零碎介绍稳定性指标度量的价值、落地办法及功效。 作者介绍 货拉拉技术稳定性团队负责人——李全 TakinTalks 社区特邀讲师。2021 年退出货拉拉,现任货拉拉技术稳定性团队负责人,主导了公司技术稳定性体系从 0 到 1 的建设,也曾作为核心成员深度参加了阿里本地生存技术危险体系建设,在应急响应、变更管控、大促保障等稳定性畛域有丰盛教训。 舒适揭示:本文约 5500 字,预计破费 11 分钟浏览。 后盾回复 “交换” 进入读者交换群;回复“0607”获取课件材料; 背景“拉货就找货拉拉”,置信很多人都听过这句 slogan,也有不少人应用过货拉拉的搬家服务。货拉拉除了有大家熟知的同城货运、搬家等业务,还有许多其余业务场景,比方跨城大车、企业服务、零担,甚至还有汽车租赁、加油充电等。截至 2022 年底,货拉拉的业务范围已笼罩了中国边疆的 360 个城市,月沉闷司机数量达到了 68 万,月沉闷用户数超过 950 万。在这样的业务模式和业务规模下,技术稳定性的必要性和重要性是显而易见的。 我在 2021 年退出货拉拉,过后技术稳定性刚刚处于起步阶段,很多工作待建。通过 2 年的致力,货拉拉技术稳定性体系实现了从 0 到 1 的建设,整体故障数升高了 78%,同时 SLA 也从 3 个 9 晋升到了 4 个 9。明天的分享将联合过往在阿里本地生存技术危险体系下的教训积淀,以及在货拉拉的实际功效,探讨技术稳定性的重要性和建设办法。 一、为什么肯定要做稳定性指标度量?1.1 指标:把抽象感触量化为绩效后果咱们须要建设一套可能形容稳定性程度的一系列指标,这些指标就称之为稳定性度量指标。 回顾生存中的一些经验,你会发现要清晰地形容一件事件是有肯定难度的。举个例子,阿诺德·施瓦辛格大家应该都不生疏,要形容他的体型特色,可能很多人会用强健、高大威猛这样比拟含糊的词语来形容。但如果咱们用指标度量的形式来形容,比方身高一米九,体重 200 斤,加上其余更具体的数据,比方体脂率不到 10%等,这样的形容会更加具体,并能够将其与其他人进行比照,他的强健和高大威猛就显而易见了。 回到咱们日常的稳定性工作中,比方去年你做了很多与稳定性相干的工作,过程也很顺利,积攒了不少教训,整体后果也不错,公司里的技术人员必定都会留神到这一点,他们会说“最近零碎很稳啊!”。然而作为整体稳定性的负责人,或者某个稳定性畛域的负责人,你不能间接向老板表白这种感触,而是须要将这种感触转化为绩效指标来进行表述。 因而,咱们须要建设一套稳定性度量指标,通过这些指标来形容零碎的稳定性程度。这些指标应该是可掂量、可比拟的,能够让咱们对系统的稳定性进行更加精准的形容和剖析,同时也能够为稳定性建设提供具体的指标和方向。 1.2 价值:推动稳定性体系向前演进 稳定性指标度量不仅能够帮忙分明地表白成绩,更重要的是它可能推动整体稳定性体系的提高。首先,它是一个十分弱小的监控工具,能够帮忙监测以后稳定性的状态。其次,它具备预警能力,能够提供数据供拆解剖析,找出以后稳定性的短板和亟待解决的问题。最初,咱们须要评估解决问题的危险老本,这将成为咱们下一阶段工作的指标。以往,咱们可能会在线上故障产生后能力发现问题,这是一种亡羊补牢的过程,而指标体系能帮忙咱们更被动、全面地对待问题。因而,稳定性指标度量的外围价值在于帮忙整体稳定性体系向前演进。 二、如何建设指标度量体系?2.1 剖析以后痛点货拉拉在初始阶段遇到了一些问题,其中包含以下几点。 首先,指标十分零散。公司可能有一些稳固的指标,但这些指标无奈追溯到最终目标,也无奈充分体现其价值。 其次,指标定义不够清晰。同一个名词在不同人的了解中可能有不同含意。 再次,指标数据不容易获取。须要通过梳理文本信息进行统计,但准确性和可操作性不易把握。 ...