关于运维:团队新人多稳定性经验不足研发质量怎么保障｜TakinTalks论道

一分钟精髓速览

在研发和稳定性保障过程中，人与设施、程序、组织的交互是一个简单的过程，尽管人们极少会歹意犯错，但因为受特定情景下的理论条件影响，人为失误也时有发生，那么，如何尽可能减少这些失误的产生？如何保障研发品质和零碎稳固？

「TakinTalks 论道系列」12 月刊第三期，行将公布，敬请期待！

当咱们把人有可能犯错的中央，通过代码、工具或者数据实现强无效的管控，就能做到不让人为因素随便毁坏零碎的稳定性，也就表明零碎稳定性建设的成熟度达到了较高水准，在稳定性建设畛域越来越多企业都在往这个方向优化迭代。

本文来源于 TakinTalks 稳定性社区「年度专家小会·杭州站」，来自酷家乐、飞书、婚礼纪、浙江华为、阿里云的 5 位不同角色的稳定性管理者，对于人员治理和“无效管控”上的 15 条教训倡议分享给你。

酷家乐-守仁 SRE 团队负责人

有哪些无效伎俩，升高人为因素带来的稳定性问题？

升高人为因素带来的稳定性问题，我总结一下大略 3 个要点——

1、自动化工具笼罩，标准整个研发流程

当团队新人较多时，人为的变更咱们肯定要通过自动化工具笼罩，包含设计、编码、测试、公布、监控、变更、重保、应急的整个闭环，外面所有的 DevOps 流程的工具咱们都统称为稳定性工具，通过工具的笼罩是能确保晋升稳定性的。

2、意识比工具更重要，需自上而下晋升稳定性意识，能够思考将稳定性工作和绩效挂钩

有工具只能缩小稳定性的问题，并不能齐全将其打消，我认为自上而下的对稳定性的器重水平很重要，比工具自身更重要。那么，人的意识如何晋升？从兽性角度讲，没有压力就没有能源，我认为稳定性的工作须要和每位员工的绩效挂钩，如果没有下层的政治压力，一线的人很难能齐全违心配合应用这一整套的稳定性工具，因为从开发、测试到线上应急，再到最初的故障复盘等等，这外面 DevOps 工具少说也有十来个，再无限流降级熔断的演练和压测之类，让一个开发同学脱离业务开发自身去相熟这一套工具，其治理老本绝对比拟高，所以咱们须要借助肯定的“压力”来晋升大家的能源。

3、设置稳定性接口人，绩效与业务线故障绑定

咱们当初每一个业务线，都设置有相似“稳定性接口人”的角色，接口人须要始终驻扎在业务线团队，并和业务线的故障在绩效层面做绑定，他须要为业务的稳定性负责。这个人能够是横向的职能团队，也能够来自利用运维，比方 SRE 部门，但他肯定要驻扎在业务线上。

飞书-邓敏研发技术团队负责人

团队新人多，稳定性经验不足，研发品质怎么保障？

1、流程标准必须恪守，它是兜底稳定性的刚性条件

对整体的研发品质，不论是老人还是新人，在字节外部咱们设置有一些标准，包含 DevOps 工具应用、稳定性保障的流程体系标准，这些都是刚性条件，目标就是兜底或者说晋升整体的确定性。

2、要容许新人犯错，年轻人须要“看过猪跑”，踩过足够多的坑能力疾速成长

新人的特点是从意识到教训，包含解决问题上都是不够成熟的，在带新人上我的教训是，要容许他犯错。早年在阿里的时候，作为新人的我也犯了很多谬误，那时候整个工具平台都不够欠缺，从我本人的经验来看，犯过足够多的谬误，或者看到过他人足够多的谬误，新人才会疾速成长，这是一个新人变成老人要成长的必经过程，不犯错是不可能成长的。

3、外部设立“师兄制”1V1 帮带，帮忙新人疾速融入稳定性文化

那么新人进来之后如何疾速成长为老人？除了零碎的培训外，咱们一方面激励新人多做尝试，一方面在 mentor 的机制上会设定较多要求，即每位新人会设置一位师兄帮带，师兄须要对新人做更多的教育和兜底，让新人在实操的过程中，把稳定性的教训逐渐造就起来。

婚礼纪-冯永祥测试团队负责人

有哪些无效伎俩，升高人为因素带来的稳定性问题？

我从测试团队治理的角度，分享我的一些策略和正在履行的办法。

1、修复后的 bug 做回归测试，一直复查能力防止故障再次引入

针对测试流程中发现的问题，在咱们对测试环境和预发环境测试实现后，会把之前发现的问题全副从新进行一次回归测试，把问题当用例去跑一遍，确认没有引入新的谬误或导致其余代码产生谬误。

2、每周五定期复盘，以业务线的角度复盘故障危险

咱们每周五会进行一次复盘，复盘时咱们会邀请公司里包含产品、研发和测试等，有志愿参加复盘的人，咱们都会邀请参加到我的项目中，咱们会提前设定好复盘话题，比方，咱们投入到哪个业务线上，大家一起去发现这个业务线上的问题和存在的一些隐患；不理解业务的咱们就从用户的角度去看，理解业务的咱们就从业务下来看，去和库存进行一些校验。用这种形式咱们会发现很多的隐患问题，就尽量在团队外部打消掉。

3、单个业务由多人 back up，防止人员流动带来危险

咱们不容许单个业务或者是单个模块齐全交接到单个人负责，都是由多集体来相熟这部分业务，这就防止了当人员呈现散失或者无奈及时响应时，导致业务断链的状况产生。目前咱们是依照集体能力加员工的志愿度，依照这个模型去推动业务穿插。

浙江华为-鞠新宇测试团队主管

有哪些无效伎俩，升高人为因素带来的稳定性问题？

我的了解是稳定性问题的保障次要从三个方面——人防、技防、流程防。

1、人防：定期培训来进步能力，排行榜来激发后劲

在人防层面，一方面须要通过培训去进步人员的能力，另一方面还须要通过一些软性的伎俩（比方排行榜）来做提醒和激励。比方，针对开发人员，能够组织对代码曲线密度或者引入问题等这些数据做排行榜，定期做数据晾晒；针对测试人员，问题漏测率、测试执行效率或者测试用例的设计效率，也能够做排行榜后定期做数据晾晒。这些日常的排名状况，和集体绩效关联后，能肯定水平上促成集体被动晋升工作品质。

2、技防：自动化工具局部取代人工，最大水平缩小人力染指

技防次要就是通过一些自动化工具，比方监控等，缩小局部的人工投入。因为自动化也不须要人力投入，你能够让它始终去跑，把一些问题可能发现进去。

3、流程防：在细节处优化流程标准，重要动作上做到穿插审核

对上线公布制订一系列流程，比方 bug 修复后在预发环境跑一遍再公布；再比方，为了避免局部研发人员疏于自查导致的故障，在我的项目尾期或者上线前，批改提交的代码须要通过小组内能力较强成员的 review 之后，再合到咱们的分支上到生产。这样通过十分多细节上的流程标准设计，来从流程上避免人为因素带来故障。

阿里云-草谷微服务引擎稳定性负责人

团队新人多，稳定性经验不足，研发品质怎么保障？

我认为能够从 3 个方面去做研发品质保障——

1、为新人设置保护期，期间由师兄兜底和担责，促成师兄为新人提供更多稳定性文化输出

每个新人刚入职阿里云的时候，会调配一个师兄，师兄的机制会起到团队稳定性教训传帮带的成果，帮忙新人疾速理解团队内的稳定性文化。同时，新人会设有一个保护期，即新人在成长进去前，线上呈现的任何可能导致故障的问题，都须要师兄承当次要的责任，以此来反向地 push 师兄，肯定要把传帮带这个事件给新人做好。

2、已有的机制需疾速相熟，重要公布和变更标准需严格遵守

从机制上来说，任何一个零碎线上的变更、上线等，肯定要有很明确的流程机制。比方，开发团队有开发的品质保障流程，上线变更有相似变更三板斧，这些在新人工作中是肯定要严格遵守的。

3、新人的稳定性意识来自于对故障的器重水平，需一直输出并建设对故障的敬畏感

新人看待线上故障的意识须要不断加强，也就是说，让新人能意识到每次线上出问题，对整个团队、对公司、对用户/客户带来的影响，这是咱们要一直地去向新人灌输的理念，让他能意识到做线上稳定性的重要性，从而新人自然而然会对线上故障产生敬畏思维。

更多稳定性技术实际和治理教训，欢送扫码回复「交换群」实时互动（请备注“入群+企业+城市”）。

微信公众号后盾回复【交换】进入读者交换群

申明：本文由公众号「TakinTalks 稳定性社区」联结社区专家独特原创撰写，如需转载，请后盾回复“转载”取得受权。

关于运维:团队新人多稳定性经验不足研发质量怎么保障｜TakinTalks论道

一分钟精髓速览

酷家乐-守仁 SRE 团队负责人

有哪些无效伎俩，升高人为因素带来的稳定性问题？

1、自动化工具笼罩，标准整个研发流程

2、意识比工具更重要，需自上而下晋升稳定性意识，能够思考将稳定性工作和绩效挂钩

3、设置稳定性接口人，绩效与业务线故障绑定

飞书-邓敏研发技术团队负责人

团队新人多，稳定性经验不足，研发品质怎么保障？

1、流程标准必须恪守，它是兜底稳定性的刚性条件

2、要容许新人犯错，年轻人须要“看过猪跑”，踩过足够多的坑能力疾速成长

3、外部设立“师兄制”1V1 帮带，帮忙新人疾速融入稳定性文化

婚礼纪-冯永祥测试团队负责人

有哪些无效伎俩，升高人为因素带来的稳定性问题？

1、修复后的 bug 做回归测试，一直复查能力防止故障再次引入

2、每周五定期复盘，以业务线的角度复盘故障危险

3、单个业务由多人 back up，防止人员流动带来危险

浙江华为-鞠新宇测试团队主管

有哪些无效伎俩，升高人为因素带来的稳定性问题？

1、人防：定期培训来进步能力，排行榜来激发后劲

2、技防：自动化工具局部取代人工，最大水平缩小人力染指

3、流程防：在细节处优化流程标准，重要动作上做到穿插审核

阿里云-草谷微服务引擎稳定性负责人

团队新人多，稳定性经验不足，研发品质怎么保障？

1、为新人设置保护期，期间由师兄兜底和担责，促成师兄为新人提供更多稳定性文化输出

2、已有的机制需疾速相熟，重要公布和变更标准需严格遵守

3、新人的稳定性意识来自于对故障的器重水平，需一直输出并建设对故障的敬畏感

微信公众号后盾回复【交换】进入读者交换群

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于运维:团队新人多稳定性经验不足研发质量怎么保障｜TakinTalks论道

一分钟精髓速览

酷家乐-守仁 SRE 团队负责人

有哪些无效伎俩，升高人为因素带来的稳定性问题？

1、自动化工具笼罩，标准整个研发流程

2、意识比工具更重要，需自上而下晋升稳定性意识，能够思考将稳定性工作和绩效挂钩

3、设置稳定性接口人，绩效与业务线故障绑定

飞书-邓敏 研发技术团队负责人

团队新人多，稳定性经验不足，研发品质怎么保障？

1、流程标准必须恪守，它是兜底稳定性的刚性条件

2、要容许新人犯错，年轻人须要“看过猪跑”，踩过足够多的坑能力疾速成长

3、外部设立“师兄制”1V1 帮带，帮忙新人疾速融入稳定性文化

婚礼纪-冯永祥 测试团队负责人

有哪些无效伎俩，升高人为因素带来的稳定性问题？

1、修复后的 bug 做回归测试，一直复查能力防止故障再次引入

2、每周五定期复盘，以业务线的角度复盘故障危险

3、单个业务由多人 back up，防止人员流动带来危险

浙江华为-鞠新宇 测试团队主管

有哪些无效伎俩，升高人为因素带来的稳定性问题？

1、人防：定期培训来进步能力，排行榜来激发后劲

2、技防：自动化工具局部取代人工，最大水平缩小人力染指

3、流程防：在细节处优化流程标准，重要动作上做到穿插审核

阿里云-草谷 微服务引擎稳定性负责人

团队新人多，稳定性经验不足，研发品质怎么保障？

1、为新人设置保护期，期间由师兄兜底和担责，促成师兄为新人提供更多稳定性文化输出

2、已有的机制需疾速相熟，重要公布和变更标准需严格遵守

3、新人的稳定性意识来自于对故障的器重水平，需一直输出并建设对故障的敬畏感

微信公众号后盾回复【交换】进入读者交换群

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

飞书-邓敏研发技术团队负责人

婚礼纪-冯永祥测试团队负责人

浙江华为-鞠新宇测试团队主管

阿里云-草谷微服务引擎稳定性负责人

发表回复取消回复