乐趣区

关于阿里云:数字化安全生产平台-DPS-重磅发布

11 月 5 日,在 2022 杭州 · 云栖大会上,数字化平安生产平台 DPS 重磅公布,助力传统运维向 SRE 转型。

阿里巴巴资深技术专家 周洋

十四五布局下,各行各业全面减速数字化转型与降级。随着企业数字化业务规模变大,迭代速度放慢,零碎复杂度越来越高,如何保障业务稳定性这一话题也变得愈发重要。下述有几点典型场景和挑战:

场景一:分布式系统面临稳定性保障新挑战

近年来,尽管稳定性关注度日益进步,新技术蓬勃发展,重大故障仍然频发且影响微小。例如,2021 年,某证券 IDC 故障 2 小时,导致客户无奈交易,产生资损;某视频网站,服务器故障 3 小时无法访问,引发舆论……技术的不失当应用、人为操作失误、硬件故障、自然灾害、平安攻打仍然给生产带来极大危险。

场景二:政策疏导 IT 零碎稳定性建设安稳推动

随着数字化转型政策的推动,越来越多国民级利用诞生,大大不便了人们的日常生活,各个企业也相继推出本人的客户端。然而,大多数企业没有经验过多年互联网倒退的锻炼,应答线上危险能力有余,亟需以最短时间实现稳定性运维能力的积攒,少走弯路。

场景三:传统运维伎俩已无奈满足要求

传统运维存在运维工具割裂、面向基础设施而非业务、被动运维、不足规范化的流程机制体系等问题。企业应遵循 SRE(Site Reliability Engineering)和平台运维(Platform Ops)的翻新理念,通过软件来实现系统管理、问题发现、问题解决和自动化运维工作。

在现实生活中,无论建造摩天大楼还是家庭工程保护,在保障工程质量的同时,更重要的是避免出现安全事故,造成人员挫伤,因而须要一套标准化的工艺流程、技术标准和验收伎俩等。在软件行业中,同样须要标准化的技术能力和方法论,来保障线上业务稳定性。于是,从 2018 年起,阿里巴巴团体便致力于 IT 软件畛域的平安生产建设:一方面增强高可用架构的根底建设,另一方面,提供 SRE 转型的流程机制体系,配合可用性能力、组织能力和劫难恢复能力等指标,造成一套残缺的平安生产办法体系。

为此,数字化平安生产平台(DPS)应势而生。DPS 稀释了阿里巴巴十年运维教训,以 PlatformOps 为理念,以保障业务连续性为指标的一站式管控 SRE 运维平台,具备场景化、数字化和云原生化三大典型特色。

  • 场景化: DPS 以应急场景为核心,弱化组织架构带来的运维限度,同时,DPS 全面的监控和告警规定配置能够反对涵盖业务的各个场景。
  • 数字化: DPS 提供数字化监控大屏、智能化告警、智能故障定位、白屏化故障快恢伎俩和数字化度量、人员治理等能力,为企业数字化过程添砖加瓦。
  • 云原生化: DPS 以阿里云丰盛的云原生产品作为技术撑持,且具备足够的开放性,能够与阿里云一方、二方和开源零碎等进行关联。

数字化平安生产平台 (DPS) 作为阿里巴巴团体数十年互联网摸索的积淀,在平台的架构和演进方面次要关注以下几点:

  • 明确指标和场景: 平安生产是全局工程,其能力取决于木桶最短板。因而平安生产须要有明确的指标和场景,且保障主体框架的残缺。
  • 买通组织架构: 平安生产不仅要解决人和零碎、代码的问题,还须要解决人和人、人和制度的问题。因而平安生产须要阿里和行业的优良技术在一个体系内集成和买通。
  • 面向未来架构: 平安生产同时关注老本和缩小损失。因而,平安生产需具备肯定的抗技术周期性,架构设计除了要兼容最新的技术栈,也要面向未来架构进行设计。

数字化平安生产 DPS 反对两大典型业务场景:“1-5-10”故障快恢和“变更三板斧”故障预防。

“1-5-10”故障快恢

数字化平安生产平台提供对应急事件和故障的发现、响应和复原的全生命周期治理。“1-5-10”对应故障的“1 分钟发现 – 5 分钟响应 - 10 分钟复原”,是定义故障解决的时效性指标。

  • 1 分钟发现: 通过建设围绕业务利用的全链路监控能力,可能实时监控业务衰弱度,如发现稳定性问题将秒级通报至应急保障服务组进行排查, 升高故障产生的可能性。
  • 5 分钟响应: 通过建设应急响应渠道和全链路故障定位能力,可能疾速拉通故障排查人员,基于 AIOps 智能故障定位和基于 ChatOps 进行故障状态更新和告诉流转, 晋升故障解决效率。
  • 10 分钟复原: 通过建设欠缺的故障快恢体系,基于计划内置丰盛的快恢能力,可能依据不同的故障类型智能化举荐适合的快恢预案, 缩短故障复原时长。

“变更三板斧”故障预防

数字化平安生产平台 DPS 将极易引发线上故障的变更操作纳入稳定性管控体系,做到对变更操作的“可观测、可灰度、可回滚”。

在“变更可管”方面,咱们笼罩欠缺的变更零碎,极大水平缩小对变更零碎的革新老本;在“变更可控”方面,咱们提供基于工夫、人员等维度的变更管控规定,预防可能呈现的危险;在“变更可用”方面,咱们可主动发现变更引发的故障,提供变更回滚等智能化快恢能力。

如果您对于数字化平安生产平台 DPS 有任何疑难,欢送应用钉钉扫描二维码退出钉钉交换群,期待与您共创!

退出移动版