共计 3040 个字符,预计需要花费 8 分钟才能阅读完成。
“平安生产”是业界新衰亡的一种概念,来源于传统行业,增强平安生产就是为了避免和缩小生产安全事故,保障人民大众生命和财产平安,促成经济社会继续衰弱倒退。
随着互联网倒退,数字经济在经济总量中占比超 30%,在以 IT 零碎为次要撑持的新兴互联网企业中,各类系统故障虽不会造成人员挫伤,但给企业带来的损失却不容小觑,除了间接的经济损失还会造成用户的大量散失,重大侵害企业形象。
正因如此,数字化业务也须要“平安生产”,构建欠缺的平安生产体系能帮忙企业解决以后的痛点问题:
1. 互联网企业系统安全生产根底建设单薄;
2. 技术人员不足体系与标准的指引;
3. 平安生产监督单薄,无奈落实到位;
数列科技微服务系统安全生产(稳定性治理)建设总体框架
本期【大咖对谈】咱们邀请到了互联网企业的行业代表、TakinTalks 社区的三位讲师——B 站直播 B &C 端架构组 leader 吕帆、唯品会中间件技术专家陈俊峰、数列科技联结创始人杨德华,就流动保障效率、混沌工程、人员标准治理、平安生产等方向做了深入探讨,以下为对谈精彩片段,心愿能对你有所启发——
(文末附查看完整版回放视频形式)
专家介绍
专家观点碰撞
1. 流动保障是很多企业都要做的事件,除了保障成果,保障的老本和效率成了大家最为关注的问题,有没有什么降本增效的好办法?
B 站吕帆:
流动保障中压测是投入人力最多的,过后应该有二三十人一起去做这个事件,其中比拟麻烦的事件就是链路梳理这一块,过后压测链路梳理花了 3 周工夫,不过 B 站的压测场景不会变动很大,另外新公布的性能,比如说咱们最近做的虚构主播这一块儿的货色它流量并不是特地高对稳定性也不会有大影响,所以梳理一次外围压测场景和脚本后续能够复用,这样就能为后续的流动保障降本增效。
在晋升效率方面的话,其实还有一个十分重要的点,当你把一些筹备工作做到极致的时候就会省很多事件,比如说咱们有几个场景是须要一起压测的,独自压测的后果是有效的,那筹备短缺就不会产生这样的事件。
数列杨德华:
数列科技帮忙了很多企业比方顺丰、中国移动、中国人寿等企业在生产环境做全链路压测,他们也会特地关注保障效率和老本的问题,像是链路梳理这块比拟占用人工和工夫的工作也是重点提效的局部。某些企业因为业务变更频繁、依赖也时常变动,数列科技开源产品 Takin 也是根据用户需要欠缺了链路主动梳理的性能,能够帮忙企业在链路梳理上缩小工夫破费,无效提效 50% 以上。
唯品会陈俊峰:
的确每次大型流动的保障要花费很多的工夫跟人力,咱们最近也有在做优化方向的事件,有业务层面和技术层面的动作。
像业务层面就是更新了流动玩法,进行促销日常化,不会把大促的流量全副引到集中的工夫点,例如双十一不会只是当天早晨开售,而是从 11 月 1 日就开始了,让流量均摊一些,那么保障压力也会加重。
技术层面的话就会波及到底层组件的产品化成熟问题,咱们目前是曾经有了压测平台,集成了几种压测形式。像之前压测各个团队都是各自在本人的压测环境中进行,包含录制流量回放也是各自实现的,当初这块做了整合,把标准化的流程做到产品里,这样也对人效的进步有很大的帮忙。
2. 把问题提前扼杀在摇篮里是最好的保障伎俩,混沌工程、故障演练开始进入公众视线,那它到底是如何失效的?
B 站吕帆:
保障工作的外围还是在于人,线上零碎异样是没有方法防止的,那咱们除了要锤炼零碎的稳定性,还应该锤炼参加保障的人,让他们可能临危不乱,沉着及时地解决问题。混沌工程的重要环节就是故障演练,也是锤炼人和零碎的次要伎俩。目前 B 站的演练并不是线上演练,而是在演练环境进行,因为线上演练容易产生脏数据净化生产环境,所以咱们采纳复制流量 + 复制环境的办法,将来咱们也将持续精进。
数列杨德华:
混沌工程目标是提前发现和解决问题,保障系统稳固和用户体验晋升。零碎稳固是咱们谋求的后果指标,混沌工程是咱们能够晋升过程类指标的一个新的无效做法。数列科技的很多客户,也在这方面有所实际,他们少数也是以故障演练作为切入点。而故障演练在现实状况下的流程应该是:例行化故障演练、找出零碎危险点、优化业务零碎、产出可行无效的故障解决预案。
唯品会陈俊峰:
混沌工程还是很有用的,化被动为被动,让故障提前产生,来看零碎的体现,也能提前准备预案去应答。目前咱们有搭建隔离环境去做混沌工程的事件,也有相干的产品雏形,只是目前还没有落地到生产环境。毕竟要在生产落地混沌工程还是须要肯定勇气的,除了要对系统有很大的把握,还得自上而下地去推动这个事件能力真正地落地。
3. 保障工作的外围在于人,各种标准开始流行,可怎么制订与落地又成了新的难点,有没有什么好的做法?
数列杨德华:
咱们中国有句老话叫无规则不成方圆。同时瑞达利欧也专门写了一本书叫《准则》。在肯定水平上来说,标准等同于准则,也就是说话、行事所根据的准则。标准其实就是一种管理手段,即便是针对零碎制订的标准其实次要针对的还是人。在制订标准的初期就应该明确标准制订的目标以及具体的利用范畴,这样能力更有针对性。
我这边也有一个想法,是不是能够参考“故障演练”去被动注入一些违反标准的事件,看看负责人员是否发现,以此获取疾速的反馈,将来可能这块也能尝试。
B 站吕帆:
对于标准怎么落实,做所有的事件都会考究 ROI,不用强制要求所有服务符合规范,次要要求外围业务合乎相干标准。另外咱们会通过一些特定的工具进行 review,平时的宣导、培训也会无意识地去增强大家的标准意识,针对外围业务咱们还会有处罚机制,触犯相干标准就会触发处罚,对应人员是须要负责任的。
唯品会陈俊峰:
标准和流程的制订咱们少数是依据教训来的,从过往的 badcase 和 goodcase 中总结进去,这样也会更符合实际的利用场景,对于落地的阻力也会加重。至于标准的理论落地,咱们往往会联合着平台工具来实现,更规范也不便测验回顾与更新迭代。
4.“平安生产”是业界新衰亡的概念,对此有什么认识?
数列杨德华:
数字化业务方面的平安生产区别于传统行业,跟用户体验、业务的失常运行是严密相干的。目前一些企业应用波及国计民生、基础设施的业务,从故障起因的注入、故障产生到故障发现再到技术人员上线,什么时候能定位,什么时候能复原,都会有精细化的一些指标。提前制订好指标,围绕指标去进行演练或者通过实在的故障去 review 这些工夫点,先看外表问题再找根因。置信将来这些内容会缓缓造成一套通用的规范。
平安生产,最终目标是 0 重大故障,当然很多企业每个月都会呈现重大故障,所以大部分企业在落地的时候,会以升高重大故障数量作为阶段性指标,进而谋求 0 重大故障。为了最终达成 0 重大故障,须要去度量整个研发流程的危险状况,进而去做到提前解决。
唯品会陈俊峰:
平安生产目前对咱们一线技术来说的话就是防止系统故障,很多重大故障的起因就是一些小变更,因为变更人员的漠视,小问题缓缓变成大问题最初导致生产大故障,所以人员的束缚、变更监控这些都是很重要的事件。唯品会接下来也会在混沌工程常态化、容量布局自动化、单元化等中央发力。
B 站吕帆:
对于平安生产咱们次要是围绕“一五十”的概念去开展的,也就是 1 分钟发现 5 分钟定位 10 分钟解决,但咱们没有全副强制要求和度量。S11 的时候大家都坐在一起,那处理速度就会更快,但平时或者非核心业务要做到“一五十”,要求就有些高了。当然“一五十”“多活”“多机房部署”等等也是咱们将来要继续倒退的方向。
精彩回放地址:https://news.shulie.io/?cat=5&cnel=ff530