共计 1444 个字符,预计需要花费 4 分钟才能阅读完成。
搞平安的同学都晓得,有一个十分驰名的网络安全模型叫 PDR 模型,提出者是美国国内互联网安全零碎公司(ISS),其外围论断是网络安全是一个工夫问题,对应的公式为
Et = Dt + Rt - Pt
,其中:
- Et (Exposure) 裸露工夫,零碎裸露在攻打下的工夫;
- Pt (Prevent) 进攻工夫,零碎扛住内部攻打的工夫,或者说攻击者胜利浸透的整个工夫;
- Dt (Detect) 检测时间,平安检测零碎发现攻打所须要的工夫;
- Rt (Response) 响应工夫,发现攻打到攻打门路被切断,攻打被停止的整个工夫。
PDR 模型直观、易懂,为平安防护工作提供了比拟实用的领导框架。在零碎可能呈现的各类故障中,平安只是其中一种,既然 PDR 模型能领导解决平安问题,那么 PDR 模型是否也能领导解决其余故障呢?我认为是必定的。
1 什么是 PDR 故障模型?
对照 PDR 模型,先来看一下故障的生命周期,
从上图能够十分直观的看出,为了缩短故障工夫(Failure Time),咱们要想方法尽可能的缩短检测时间(Detect Time)和响应工夫(Response Time),同时缩短进攻工夫(Prevent Time)。缩短检测时间对应晋升监控、告警能力,缩短响应工夫对应晋升故障修复、CI/CD 能力,缩短进攻工夫对应晋升零碎的容错能力或者说健壮性。这里比拟有意思的一点是对于进攻工夫,只有咱们能把进攻工夫缩短到足够长(超过检测时间和响应工夫之和),那么故障就没有机会造成理论影响,也就等同于“毁灭”了故障。
2 防火优于灭火
魏文侯曰:‘子昆弟三人其孰最善为医?’扁鹊曰:‘长兄最善,中兄次之,扁鹊最为下。’
——《鶡冠子·卷下·世贤第十六》
扁鹊三兄弟中,扁鹊 Rt 能力强,二哥 Dt 能力强,大哥 Pt 能力强,但此 Pt 非彼 Pt。在上述 PDR 模型中,Pt 是指故障产生之后的防御能力,而大哥的 Pt 能力是指故障(疾病)产生之前的防御能力,也即防患未然的能力。
受限于各方面因素,绝大多数状况下,故障进攻工夫是小于检测时间和响应工夫之和的,因而,一旦零碎呈现故障,就难免会造成一些理论影响。那么有没有方法防止这类影响呢?有的,向扁鹊大哥学习,防火优于灭火。如何做到防患未然呢?以史为鉴,能够知兴替,也即故障复盘。
故障复盘是一件极其重要的事件,它是如此重要以至于大多数人都低估了其重要性。小到集体,大到公司,从大大小小各类故障中总结经验教训,学到很多书本上学不到的常识,从而取得最大水平的晋升,这也是成长性团队的重要特色。网上对于故障复盘的材料很多,这里我只想强调三点,
第一,故障复盘越早做成果越好(当然是在故障被妥善处理之后)。留神,解决故障过程中,应尽可能保留故障现场,同时做好过程数据备份,以便预先进行复盘。
第二,在整个故障复盘过程中,应秉持对事不对人的准则,所有从事实登程,用事实谈话,这样能力找到真正的根本原因,并据此提出卓有成效的改良措施。
第三,每项改良措施应指定惟一的责任人,并辨别优先级,对于高优先级的改良措施,应明确闭环工夫(比方 1 个月)。
最初,举荐一篇陈皓老师的专栏(文末参考资料第 2 篇),同时我在附录里贴了一份故障复盘报告模板,心愿大家在平时工作中可能用到。
3 小结
在明天这篇文章里,我首先提出了一个专门用于故障解决的 PDR 模型,而后给出了一些故障复盘的准则,心愿可能对你有所帮忙。欢送你到我的留言板留言交换,和大家一起过过招。
附录
故障复盘报告模板
参考
- 左耳听风 - 故障解决最佳实际:应答故障
- 左耳听风 - 故障解决最佳实际:故障改良
- [余晟认为 - 浅谈“黑匣子思维”](