MTBF
均匀无故障运行工夫(即从开始运行到呈现故障所经验的工夫),艰深的讲工夫越长,阐明零碎的稳定性和可靠性越好
MTTR
均匀故障修复工夫(即从零碎产生故障到恢复正常所经验的工夫),艰深的讲就是当业务系统故障时,修复零碎所破费的工夫。工夫越短,阐明咱们的修复和保护工作越高效,也可从侧面阐明该业务零碎的自愈合能力和抗灾祸能力越强
SLI
服务水平指示器,直译不好了解。艰深的讲就是用来评估咱们服务质量的指标,例如:
- 磁盘存储的可靠性:98%
- 网站拜访的提早:<40ms
- 2xx状态申请占比: 99.92%
- 服务的可应用工夫: 98.75%
SLO
服务水平指标。用来形容SLI的目标值,通常指咱们在服务工夫内(如月度,季度,年度)须要达到的服务指标,SLO能够了解为考核值,而SLI是理论值
服务指标(年度) | SLI | SLO | 服务指标达成状况 |
---|---|---|---|
磁盘存储的可靠性 | 98% | 99.999% | 未达成 |
网站拜访的提早 | <40ms | <30ms | 未达成 |
2xx状态申请占比 | 99.92% | 99.999% | 未达成 |
服务的可应用工夫 | 99.75% | 99% | 达成 |
SLA
服务水平协定。和用户签订的服务条款,通常是指一些赔付条款。例如通过监控SLI值,并和SLO比照,如果未达成SLO,须要如何为客户提供抵偿
示例阐明
奥得彪在AWS上购买了一台弹性云服务器EC2,用来搭建香蕉批发网站。后果AWS的非洲数据中心屡次产生了故障,影响了奥德彪的EC2,一年宕机了共计320个小时,依据计算EC2的年度可用性指标仅仅为96.35%(SLI)。
奥德彪很怄气,因为AWS的销售人员承诺他,EC2的年度可用性指标是99.75%(SLO),即故障工夫小于22小时。
然而理论状况是SLI<SLO,阐明AWS提供的服务质量显著没达标。于是奥德彪关上了和AWS签订的用户协定(SLA),下面写着对于额定故障工夫,每小时赔付用户10美元。依据此协定,AWS为奥德彪抵偿了2980美元
阐明:
从下面的例子咱们了解了SLI,SLO,SLA这几个概念,设计这几个概念的初衷在于量化咱们的服务质量,治理客户的预期。例如客户总是埋怨网站拜访慢,但“慢”是一种很难量化的绝对的心里感触状态,并不能直观反映服务质量。
咱们能够通知用户:你应用的共享实例提早小于80ms(SLO),价格10元/天,而独享实例提早<20ms(SLO),价格100元/天, 你能够抉择独享实例来晋升速度。而用户通过直观的数据,对服务质量和价格有了量化的比拟,再看看钱包,兴许就不觉的慢了。。。。。。