sre 关于sre:2-分钟搞懂-SLO-最佳实践 本文是《SRE,Google运维解密》读书笔记,连载第三篇。微信公众号批改了推文逻辑,尤其是 iOS,倡议对本公众号 SRETalk 加星标,免得错过后续系列推文。
sre 关于sre:Uber-SRE-实践运维大型分布式系统的一些心得 在过来的几年里,我始终在构建和经营一个大型分布式系统:优步的领取零碎。在此期间,我学到了很多对于分布式架构概念的常识,并亲眼目睹了高负载和高可用性…
sre 关于sre:系统故障工程师居然可以不背锅看看几家大厂是怎么做到的内附复盘模板 系统故障无奈防止,事变产生的起因多种多样,故障定责不是为了指摘而是为了后续的优化改良,可很多企业在定责时不免遇到团队、集体之间推卸责任的状况,定责…
sre 关于sre:监控告警怎么搭建比较合理B-站-SRE-实践总结了-4-大关键步骤 没有监控或者没有一个好的监控,导致你无奈疾速判断零碎是不是衰弱的;没有告警或者没有一个精准的告警,当零碎出问题时不能及时告诉到你,并且通知你哪里出…
sre 关于sre:故障复盘后的告警如何加出效果浙江移动等老将总结了-6-条注意事项 一分钟精髓速览某企业外部故障统计数据显示 85%的异样是靠用户上报发现而非监控发现。针对一个故障场景减少一个告警,往往须要减少数百上千个监控项,这样加…
sre 关于sre:10年稳定性保障经验总结故障复盘要回答哪三大关键问题|TakinTalks大咖分享 #一分钟精髓速览 # 怎么样做好故障复盘?是否只有把事变要定责到人就能解决问题?这是很多企业/团队都要面对的问题,有着超10年零碎稳定性保障教训的李道兵老…
sre 关于sre:B站SRE负责人亲述713故障后的多活容灾建设|TakinTalks大咖分享 「社区发起人举荐语」——1.分布式系统无奈保障相对可用,置信大家都碰到过软件系统长时间不可用。面对相似问题,美国经济学家⽶歇尔·渥克提出了灰犀牛实践,…
sre 关于sre:GrowingIO-Terraform-实践 为满足 GrowingIO 客户多样性的需要,在私有云设施上应用 Terraform 作资源管理。采取 Terrform 具备以下相干劣势:
sre 关于sre:什么是SRESRE需要具备什么能力 SRE最早是由Google提出的概念,其大略的意思就是:以标准化、自动化、可扩大驱动保护,用软件开发解决运维难题。这个岗位面世的时候,其基本要解决的问题就是突破传统研发人员疾速迭代而引发的业务不稳定性,用以保障业务保护偏重的服务质量以及稳定性之间的均衡。
sre 关于sre:SRE与DevOps的10大开源项目 想成为胜利的SRE须要继续学习。当初有许多SRE/DevOps可应用的开源我的项目,每一种都是新的而让人兴奋的实现,其常常应答特定畛域的挑战。这些开源我的项目帮你承当的分量让你能够干的更轻松些。除了这些开源我的项目,这里还有一个能够收费体验的继续学习平台。