共计 3110 个字符,预计需要花费 8 分钟才能阅读完成。
简介:阿里巴巴云原生大数据运维平台 SREWorks,积淀了团队近 10 年通过外部业务锻炼的 SRE 工程实际,明天正式对外开源,秉承“数据化、智能化”运维思维,帮忙运维行业更多的从业者采纳“数智”思维做好高效运维。
作者 | 晟白
起源 | 阿里技术公众号
随着行业一直倒退,大数据 &AI 也逐步出现云原生化的趋势。简单的业务场景及其背地波及到的不同技术方向的开源和自研,使得产品运维面临技术复杂度高、规模大、场景多等挑战。
阿里巴巴云原生大数据运维平台 SREWorks,积淀了团队近 10 年通过外部业务锻炼的 SRE 工程实际,明天正式对外开源,秉承“数据化、智能化”运维思维,帮忙运维行业更多的从业者采纳“数智”思维做好高效运维。
一 SREWorks 是什么?
谷歌在 2003 年提出了一种岗位叫做 SRE (Site Reliability Engineer,站点可靠性工程师),它是软件工程师和系统管理员的联合,器重运维人员的开发能力,要求运维日常琐事在 50% 以内,另外 50% 精力开发自动化工具缩小人力需要。
SREWorks 作为阿里云大数据 SRE 团队对 SRE 理念的工程实际,专一于以利用为核心的一站式“云原生”、“数智化”运维 SaaS 治理套件,提供企业应用 & 资源管理及运维开发两大外围能力,帮忙企业实现云原生利用 & 资源的交付运维。
阿里云大数据 SRE 团队人造凑近大数据和 AI,对大数据 &AI 技术十分相熟,且具备随取随用的大数据 &AI 算力资源,始终致力践行“数据化”、“智能化”的运维理念,行业里的 DataOps(数据化运维)最早由该团队提出。SREWorks 中有一套端到端的 DataOps 闭环工程化实际,包含规范的运维数仓、数据运维平台、经营核心等。
随着云原生时代大趋势的到来,阿里云大数据 SRE 团队将 SREWorks 运维平台开源,心愿为运维工程师们提供开箱即用的运维平台。
二 SREWorks 有什么劣势?
回归到运维畛域的需要,无论下层产品和业务状态怎么变动,运维实质上解决的还是“品质、老本、效率、平安”相干需要。SREWorks 用一个运维 SaaS 利用界面来撑持上述需要,同时以“数智”思维为内核驱动 SaaS 能力,具体包含交付、监测、治理、管制、经营、服务六局部。
1 体系化运维平台分层架构
从“品质、老本、效率、平安”四个维度登程看运维实质相干工作,运维除了要搭平台、建标准、做规范,还要用主动理念晋升效率,用数据驱动测试 / 开发 / 运维,用智能伎俩提前发现 / 预测危险问题等。这些能够看成是方法论。如何能从实践疾速取得一套体系化、工程化、产品化的能力实际,去撑持满足上述四个维度的需要,就是 SREWorks 所思考的问题。
阿里云大数据 SRE 团队利用分层思维构筑了 SREWorks 平台产品体系,借鉴经典 SPI(SaaS/PaaS/IaaS)三层划分思路,SREWorks 由“运维 SaaS 利用场景层、运维 PaaS 中台服务层、运维 IaaS 接入层”三局部形成。
SREWorks 中还融入了运维标准、标准化思维,利用产品承载自动化流程、数据驱动、智能内核的方法论。从代码到线上业务服务的整个过程,运维或多或少地参加了其中一些工作,因而,围绕利用的生命周期,在 SaaS 场景层划分了“交付、监测、治理、管制、经营、服务”六大区。如下图所示,每块内容里都有代表性的外围性能。
SREWorks 中对立以利用形象来形容业务零碎,在开发人员将研发实现的利用制品交付上线后,就会对线上利用实例生命周期进行监测、治理、管制。SREWorks 所领有的运维数据能力会提供增值化的经营、服务,为有须要的人员提供便捷的视图、治理能力等。
“交付、监测、治理、管制、经营、服务”六大场景在 SREWorks 产品手册中有具体的定义及边界阐明。
2 残缺的数据化运维体系实际
一套数据化运维体系,会把所有零碎的运维数据全副采集起来、真正买通,并深度开掘这些数据的价值,为运维提供数据决策;同时构建数据化运维业务模型,基于该模型建设标准化运维数仓,建设数据运维平台,在平台中标准运维数据的采集、存储、计算及剖析,并提供一系列数据化服务,供下层运维场景应用。
有了运维相干的量化数据,对运维工作的形容和掂量将更加立体化,能够建设长期可继续优化的运维工作模式,实现真正的运维价值。
3 服务化的 AIOps 智能运维平台
在阿里云大数据 SRE 团队看来,AIOps 的呈现并没有扭转运维的表现形式,仍旧还是“交付、监测、治理、管制、经营、服务”的界面,只是在大量运维数据化工作的根底之上,利用 AI 能力摸索、开掘智能化运维场景。因而,在一开始构筑 AIOps 工程实际时,就保持打造“感知、决策、执行”的闭环,相似主动驾驶的理念。
SREWorks 将量身定制的算法与运维场景化联合,可能提前预测、关联剖析,加强危险预防、故障定界定位能力,实现传统伎俩无奈取得的运维价值。具体而言,将每一个智能化的运维服务包装成感知的“监测器”、决策的“分析器”、执行的“策略器”,供衰弱治理、变更治理等系列服务调用,即可加强已有运维场景,解决一些一般伎俩无奈解决的问题。
4 运维中台化、低代码化及云原生化运维开发体验
SREWorks 套件本身也是云原生化的利用,并且采纳运维中台思维构建,在中台里构建大量的 PaaS 化运维服务能力,在前台围绕“交、监、管、控、营、服”六大场景提供 SaaS 化运维场景利用。
大部分页面为企业后端控制台类零碎,不太须要很酷炫的交互设计,故而,运维开发畛域的前端开发始终难于追赶前端风行趋势。针对这些特点,SREWorks 创新性地设计了一套 Serverless 体验的前端开发模式。
三 为什么要开源?
阿里云大数据 SRE 团队之前在屡次技术分享时重点介绍过“DataOps、AIOps”的能力,但都是纯理论层面的介绍。具体在 SRE 畛域,到底在工程实际上实现这一套实践?对运维的需要、界面、内核这三层的了解如何落地?
为了把数据化、智能化这套数智内核故事讲明确,阿里云大数据 SRE 团队将具备低门槛、高效率特点的云原生运维平台 SREWorks 开源进去。
他们动摇地认为,运维团队更须要拥抱云原生,只有这样,运维能力在云原生浪潮下找到一席之地。
该团队也心愿,SREWorks 的开源,能让更多从业者应用“大数据和 AI”的能力做好运维,实现“数据 + 智能”的运维平台内核。
据介绍,SREWorks 背靠阿里云计算平台系列“大数据 &AI”产品,如 MaxCompute、Flink、DataWorks、Hologres、Elasticsearch 等,开源版中同样选取了这些产品对应的开源版本,比方开源版 Flink、Elasticsearch 等。
四 后续布局
SREWorks 平台目前每个月会进行一次迭代开发工作,后续将由版本管理员对立保护合入相干性能及问题修复等内容,以保障最新的云原生化运维能力继续进入前期版本中。
以后,SREWorks 中有一套 OAM(Open Application Model)标准的工程化实际,能够把该实际看成是 SREWorks 的外围引擎。围绕该引擎,SREWorks 团队建设了系列运维中台服务,蕴含自动化、数据化、智能化能力,之后也将追随社区 OAM 标准的倒退,继续迭代。
五 写在最初
明天 SREWorks 的开源只是迈出的一小步,十分期待失去开发者的反馈。SREWorks 中也设计了插件化扩大能力,欢送应用 SREWorks 来打造属于本人的运维平台。
最初,如果您对 SRE、DataOps、AIOps 或云原生等畛域有趣味,都能够参加到咱们的建设中来,这将是咱们莫大的荣幸,一起交换,一起打造最具特色的 SRE 云原生运维平台!
原文链接
本文为阿里云原创内容,未经容许不得转载。