关于运维:SRE体系02常见术语

MTBF

均匀无故障运行工夫(即从开始运行到呈现故障所经验的工夫)，艰深的讲工夫越长，阐明零碎的稳定性和可靠性越好

均匀故障修复工夫(即从零碎产生故障到恢复正常所经验的工夫)，艰深的讲就是当业务系统故障时，修复零碎所破费的工夫。工夫越短，阐明咱们的修复和保护工作越高效，也可从侧面阐明该业务零碎的自愈合能力和抗灾祸能力越强

服务水平指示器，直译不好了解。艰深的讲就是用来评估咱们服务质量的指标，例如：

服务水平指标。用来形容SLI的目标值，通常指咱们在服务工夫内(如月度，季度，年度)须要达到的服务指标，SLO能够了解为考核值，而SLI是理论值

服务指标(年度)	SLI	SLO	服务指标达成状况
磁盘存储的可靠性	98%	99.999%	未达成
网站拜访的提早	<40ms	<30ms	未达成
2xx状态申请占比	99.92%	99.999%	未达成
服务的可应用工夫	99.75%	99%	达成

服务水平协定。和用户签订的服务条款，通常是指一些赔付条款。例如通过监控SLI值，并和SLO比照，如果未达成SLO，须要如何为客户提供抵偿

奥得彪在AWS上购买了一台弹性云服务器EC2，用来搭建香蕉批发网站。后果AWS的非洲数据中心屡次产生了故障，影响了奥德彪的EC2，一年宕机了共计320个小时，依据计算EC2的年度可用性指标仅仅为96.35%(SLI)。

奥德彪很怄气，因为AWS的销售人员承诺他，EC2的年度可用性指标是99.75%(SLO)，即故障工夫小于22小时。

然而理论状况是SLI<SLO,阐明AWS提供的服务质量显著没达标。于是奥德彪关上了和AWS签订的用户协定(SLA)，下面写着对于额定故障工夫，每小时赔付用户10美元。依据此协定，AWS为奥德彪抵偿了2980美元

从下面的例子咱们了解了SLI,SLO,SLA这几个概念，设计这几个概念的初衷在于量化咱们的服务质量，治理客户的预期。例如客户总是埋怨网站拜访慢，但“慢”是一种很难量化的绝对的心里感触状态，并不能直观反映服务质量。

咱们能够通知用户：你应用的共享实例提早小于80ms(SLO),价格10元/天,而独享实例提早<20ms(SLO)，价格100元/天, 你能够抉择独享实例来晋升速度。而用户通过直观的数据，对服务质量和价格有了量化的比拟，再看看钱包，兴许就不觉的慢了。。。。。。