关于运维:SRE体系02常见术语

44次阅读

共计 1024 个字符,预计需要花费 3 分钟才能阅读完成。

MTBF

均匀无故障运行工夫(即从开始运行到呈现故障所经验的工夫),艰深的讲工夫越长,阐明零碎的稳定性和可靠性越好

MTTR

均匀故障修复工夫(即从零碎产生故障到恢复正常所经验的工夫),艰深的讲就是当业务系统故障时,修复零碎所破费的工夫。工夫越短,阐明咱们的修复和保护工作越高效,也可从侧面阐明该业务零碎的自愈合能力和抗灾祸能力越强

SLI

服务水平指示器,直译不好了解。艰深的讲就是用来评估咱们服务质量的指标,例如:

  • 磁盘存储的可靠性:98%
  • 网站拜访的提早:<40ms
  • 2xx 状态申请占比: 99.92%
  • 服务的可应用工夫: 98.75%

SLO

服务水平指标 。用来形容 SLI 的目标值,通常指咱们在服务工夫内(如月度,季度,年度) 须要达到的服务指标,SLO 能够了解为考核值,而 SLI 是理论值

服务指标(年度)SLISLO服务指标达成状况
磁盘存储的可靠性98%99.999%未达成
网站拜访的提早<40ms<30ms未达成
2xx 状态申请占比99.92%99.999%未达成
服务的可应用工夫99.75%99%达成

SLA

服务水平协定。和用户签订的服务条款,通常是指一些赔付条款。例如通过监控 SLI 值,并和 SLO 比照,如果未达成 SLO,须要如何为客户提供抵偿

示例阐明

奥得彪在 AWS 上购买了一台弹性云服务器 EC2,用来搭建香蕉批发网站。后果 AWS 的非洲数据中心屡次产生了故障,影响了奥德彪的 EC2,一年宕机了共计 320 个小时,依据计算 EC2 的年度可用性指标仅仅为 96.35%(SLI)。

奥德彪很怄气,因为 AWS 的销售人员承诺他,EC2 的年度可用性指标是 99.75%(SLO),即故障工夫小于 22 小时。

然而理论状况是 SLI<SLO, 阐明 AWS 提供的服务质量显著没达标。于是奥德彪关上了和 AWS 签订的用户协定(SLA),下面写着对于额定故障工夫,每小时赔付用户 10 美元。依据此协定,AWS 为奥德彪抵偿了 2980 美元

阐明:

从下面的例子咱们了解了 SLI,SLO,SLA 这几个概念,设计这几个概念的初衷在于量化咱们的服务质量,治理客户的预期。例如客户总是埋怨网站拜访慢,但“慢”是一种很难量化的绝对的心里感触状态,并不能直观反映服务质量。

咱们能够通知用户:你应用的共享实例提早小于 80ms(SLO), 价格 10 元 / 天, 而独享实例提早 <20ms(SLO),价格 100 元 / 天, 你能够抉择独享实例来晋升速度。而用户通过直观的数据,对服务质量和价格有了量化的比拟,再看看钱包,兴许就不觉的慢了。。。。。。

正文完
 0