乐趣区

关于阿里云:从甲方到乙方如何做好混沌工程的行业化落地

作者:穹谷|阿里云技术专家,ChaosBlade 社区以及商业化产品的 Founder 和 Maintainer,乐于参加混沌工程布道。

2021 年 12 月 7 日,由信通院主办、混沌工程实验室承办的“混沌工程技术沙龙 - 金融行业精品专场”沙龙在北京举办,来自阿里云的技术专家穹谷分享“从甲方到乙方,如何做好混沌工程的行业化落地”。

混沌工程逐渐成为企业晋升稳定性的重要伎俩

企业零碎云原生化,带动利用公布迭代速度越来越快,但分布式系统的复杂性也越来越高,从而导致故障频发,如 Google Cloud 服务器因为外部存储配额问题造成身份验证零碎中断、AWS 解决流媒体数据服务呈现问题,云服务宕机 5 小时等故障,都造成了重大影响。

因为零碎不可预测的行为危险增多,云上简单零碎的稳定性难以保障,所以混沌工程逐渐成为企业寻求业务连续性的重要计划。企业希图通过混沌工程用来保障生产环境的分布式系统在面对失控条件的时候依然具备较强的韧性。

同时行业也在一直加强混沌工程畛域的规范制订,信通院通过公布《混沌工程平台能力要求》、《混沌工程成熟度模型》、《混沌工程稳定性度量模型》等标准规范推动混沌工程畛域倒退,同时联结各企业成立混沌工程实验室,促成了混沌工程在国内疾速倒退。

甲乙双方的需要和供应不同,造成混沌工程的行业化落地窘境

自混沌工程准则提出,国内外头部互联网、云厂商等公司开始涌现一批初具状态的混沌工程平台服务,互联网的公司的特点使平台倒退路线关注在产品化、生产环境、试验摸索、云原生等方面。依据信通院联结各企业公布的《中国混沌工程调查报告》显示,在混沌工程开发技术上,甲方和乙方对技术产品有不同的抉择。乙方(服务供应侧)更偏向于采纳自研平台为辅助,而甲方(服务需要侧)更偏向于采纳商业化平台作为辅助,在抉择商业化平台时更加关注产品欠缺度、行业案例、平安、技术可控等能力,面对的问题如场景如何梳理、施行环境如何建设、稳定性如何评估、影响范畴如何管制、试验流程如何制订、组织如何协同、落地价值如何体现、行业个性笼罩、运维体系如何集成等问题,所以不仅须要技术,还须要服务,融入行业个性联合实际模式来落地混沌工程。那如何去做呢?阿里巴巴联合外部混沌工程的演进,包含团体、商业化、开源等方向全方位提供混沌工程能力,联合行业化客户面临落地混沌工程的艰难,提供了一套成熟的混沌工程行业化落地解决方案。

阿里巴巴混沌工程行业化解决方案提供社区版和企业版

阿里巴巴混沌工程行业化的解决方案蕴含平台技术和服务两局部,平台技术局部蕴含混沌工程平台社区版和混沌工程平台企业版本。社区版本是代码全副开源,由社区开发保护的版本。企业版本是提供私有云 SaaS 和专有云部署的版本,相比于社区版本,提供更合乎企业级规模化、场景化、平安可控等平台需要。

混沌工程平台社区版

混沌工程平台社区版是开源的,面向多集群、多环境、多语言的通用混沌工程平台,目标是解决用户开始着手启动混沌工程的问题。在平台上能够配置多个环境实现资源隔离,在每个环境中反对多主机、多集群、多容器资源管理和故障注入,还反对运行在这些资源上的 Java、Golang、C++ 等多语言利用;同时还反对托管业内支流的混沌工程试验工具如 chaosblade、chaos mesh 和 litmuschaos,能够在平台上实现一键部署;并且对立了试验界面,能够间接在平台上应用这些工具提供的试验场景。除工具托管性能外,还提供场景治理、多维演练、流程编排、稳态检测、演练防护、演练报告、多租户等能力,提供 OpenAPI 可供内部集成。社区版和 CNCF 生态严密关联,如 Prometheus、HELM 等我的项目。

混沌工程平台企业版

混沌工程平台企业版定位是提供规模化、场景化、自动化、平安的产品能力,笼罩 IaaS、PaaS、SaaS 全栈场景。采纳社区版内核能力,可提供社区版往企业版一键降级的能力,同时针对行业化客户已有的运维零碎,如全链路压测系统、环境技术、单元化容灾平台、预案零碎、可观测等进行适配集成,通过与这些平台集成,能够很好的解决爆炸半径、稳态评估、自动化运行试验等问题。

行业化客户利用架构个别具备多语言、多平台、异构云、多供应商架构等特点,混沌工程企业版能够很好的适配集成,不便实现混沌工程一体化平台。除了适配集成外,企业版相比如社区版平台的能力更丰盛,可从四个方面来看:

  • 丰盛的演练场景:企业版反对 200 多个故障场景、反对云服务、同时兼容 Windows 平台,反对预检、断网、复原、复盘一站式的容灾断网演练,和服务级别的微服务演练。
  • 多样化的演练模式:反对自定义演练机器、场景,能够将试验积淀为教训库或者间接创立教训模板一键演练,简略便捷。提供高阶的演练计划,按需配置。反对可视化演练,在架构拓扑图上一键发动演练,能够很无效的查看演练状态和保障半径。
  • 易用的演练平台:业务零革新即可应用企业版平台,反对架构自动化感知,实现主动梳理架构拓扑、演练可视化等。反对一键从社区版降级至企业版,满足企业级的须要。
  • 平安的演练保障:提供多种演练复原策略,如通过配置业务指标阈值来管制演练状态,平安可控。提供细粒度的权限管控等。

通用混沌工程实际模式

阿里巴巴混沌工程实际模式是一套建设在阿里外部多年混沌工程实际、社区开源探讨和多个企业我的项目案例的根底上,形象出的一套通用混沌工程实际模式。通过此实际模式,能够大幅度降低企业在混沌工程课题引入、指标设定、组织设计等,确保有目的性的混沌工程落地。实际模式一共分为三类,业务导向型混沌实际、架构导向型混沌实际和组织导向型混沌实际:

  • 业务导向型混沌实际,是一种以业务为视角的实际办法,通过模式模板,能够疾速演练裸露业务架构设计的问题,升高突发故障对业务带来的影响。实际模式蕴含服务间的强弱依赖模式,波及到金融、资金类的资损防控模式,波及用户应用体验类的用户体验模式和客户端类终端容灾模式,典型的利用场景如手机银行、交易结算。
  • 架构导向型混沌实际,是一种以基础设施为视角的实际办法,通过模式模板,从基础设施的使用者和运维者角度发现问题、度量稳定性,缩短故障复原工夫。实际模式蕴含验证监控覆盖度和有效性的可观测模式,通过对 SLI 演练验证对外提供 SLA 的服务等级协定模式,验证同城双活异地多活劫难恢复模式、验证服务自愈的故障恢复模式。应用场景有外围架构分布式革新、外围业务上云等。
  • 组织导向型混沌工程实际,是一种全局视角度量和晋升稳定性的实际办法,通过组织经营,能够大幅度晋升混沌工程气氛,促成团队的组织协同,晋升故障应急效率。实际模式蕴含计划性的故障演习模式、在特定工夫组织红蓝军反抗的红蓝攻防模式、对生产环境发动的奇袭攻打模式。典型的应用场景有针对故障应急 1-5-10 的达标率考核、大型稳定性我的项目推动等。

三种落地交付模式

通过咨询服务总结出一套混沌工程实际模式,能够更加聚焦的解决混沌工程层次化落地实际问题。在理论的客户交付中,依据客户阶段,逐渐衍生出三种交付模式,即:社区版加可行性评估模式、企业版加规模化落地模式、企业版加行业深度共建 3 种模式。

  • 模式 1:社区版 + 可行性评估模式(轻征询),次要是通过开源的混沌工程平台加混沌工程专家教训,疾速在企业中落地施行混沌工程,进行后续混沌工程全面铺开的可行性评估。
  • 模式 2:企业版 + 规模化落地模式,通过私有云或专有云部署,借助此平台的企业级性能个性,能够实现在企业中规模化落地。
  • 模式 3:企业版 + 行业深度共建模式,通过专有云部署,通过专有云版本集成与被集成的能力,联合客户已有零碎,进行深度共建,实现平台一体化。

社区版 + 可行性评估(轻征询)的交付模式

借助混沌工程社区版和阿里巴巴多年在团体和客户积淀的落地教训,切实解决客户面对混沌工程无从下手的困境,疾速落地混沌工程,实现混沌工程在企业落地的可行性评估。

这个模式的典型客户的案例如上,客户背景是为满足主机下移,对系统进行了分布式架构革新,自研分布式框架须要验证其高可用能力,但没有混沌工程相干教训,想借此我的项目在企业中落地混沌工程。客户目标也很明确,要求提供混沌工程技术方法论并教会相干测试人员如何做场景剖析、部署混沌工程工具平台并教会测试人员如何基于 ChaosBlade 扩大故障场景、率领落地施行混沌工程,教会测试人员整个混沌工程施行流程。

针对客户的背景和指标,先对客户技术架构、业务架构、部署架构、稳定性保障等现状进行调研,产出稳定性剖析报告,提出稳定性问题危险点,提供混沌工程技术培训,剖析故障场景剖析案例,率领客户基于客户自研的分布式框架做故障场景剖析;同时领导客户基于 ChaosBlade 做自研故障场景开发,提供混沌工程整体技术计划和落地实施规划:

在客户侧部署社区版平台,基于已剖析出的故障场景提供演练计划并评审,施行故障演练,产出规范化的故障演练报告和组织故障演练复盘,提供混沌工程后续布局倡议。

整体的我的项目交付工夫仅用 1 个月,达到领导和自行梳理自研框架故障场景几十个、领导施行故障演练两次,自行施行故障演练屡次,发现高可用切换、故障自愈、监控告警等很多稳定性问题我的项目收益。为企业后续发展混沌工程规模化提供可行性评估。

企业版加规模化的交付模式

混沌工程在各大互联网企业中的价值逐步被大家承受,越来越多的银行、证券及保险金融类企业开始布局并落地混沌工程技术,这些金融类企业在面临分布式架构转型、云化技术升级以及金融信创下简单的基础设施环境下,应用混沌工程技术治理简单零碎的稳固是,是一种疾速且无效技术手段。在面对如何疾速无效落地混沌工程实际上,缺乏经验是这些金融企业面临的最大调整,因为混沌工程根底平台自身具备行业无关性,通过翻新我的项目引入成熟的混沌工程企业版本与服务成为越来越多的金融企业的首选。

混沌工程企业版提供丰盛的演练场景、一站式演练能力,平台易用、平安可控,保障企业规模化部署施行,发现零碎稳定性问题,晋升零碎韧性,如借助混沌工程平台晋升故障应急效率,如故障发现能力、故障定位能力、故障解决能力、故障复盘等。能够帮忙客户缩短建设大规模演练施行工夫,晋升演练执行效率,保障混沌工程施行投入产出比,让客户的精力放在架构危险辨认和系统优化上。

某头部证券客户随着业务的倒退和翻新,零碎数量和复杂度一直晋升,生产运行面临着性能缺点、性能容量、单点故障等威逼平安稳固运行的危险,须要从技术上进步零碎的高性能和稳定性。通过借助阿里云混沌工程企业版成熟能力进行常态化、规模化演练实际,提前对生产零碎中大量的故障场景下进行脆弱性的测验,最大化提前辨认和打消技术危险,晋升零碎运行的可靠性。在为期一个月的稳定性专题保障我的项目中,通过混沌工程,取得了微小收益:发现危险共计 23 类,超过 300 个问题点,演练次数 2000 屡次,当日最高演练次数高达近 300 次,笼罩外围零碎 300 个等;并基于此企业版平台发展混沌工程组织经营,如双随机演练、演练大屏看板、生产品质剖析报告、演练数据经营等。

企业版加行业深度共建的交付模式

混沌工程企业版提供集成与被集成的能力,借助此能力,能够和客户的监控零碎、变更零碎、测试零碎、应急零碎、CMDB 等系统集成,依据行业零碎特点,独特共建,如异构零碎、国产化零碎、网络云零碎等,提供行业化混沌工程畛域技术创新,如量化评估、场景摸索、试验自动化等方面,实现共赢。

通过混沌工程企业版提供的标准化能力与客户已有零碎进行适配集成,建设具备行业属性的混沌工程平台能力,满足行业需要,减速了客户在混沌工程畛域落地与翻新。

更多

阿里巴巴致力于落地混沌工程及行业化解决方案,通过多种实际模式使混沌工程施行更聚焦,多种交付模式服务于各种不同需要的企业。大家能够通过以下链接疾速体验阿里云混沌工程服务,或进行混沌工程解决方案征询。

1)开源我的项目地址:

​​https://github.com/chaosblade-io/chaosblade​​

2)产品体验地址:

​​https://developer.aliyun.com/adc/scenario/e9b27357ab9c4785bc7f43fb62f872e3​​

3)解决方案地址:

​​https://www.aliyun.com/solution/cloudnative/chaosengineering​​

点击​​ 此处 ​​,立刻上手体验混沌工程!更多混沌工程的探讨,欢送进群沟通!扫描下方二维码或搜寻钉钉群号:23177705 即可入群!

退出移动版