关于运维:云原生不仅颠覆了技术栈背后的每个岗位也在悄然发生改变

28次阅读

共计 9297 个字符,预计需要花费 24 分钟才能阅读完成。

简介: 随着云原生理念与云原生技术的不断完善和倒退,越来越多的行业开始落地实际云原生技术,这对不同岗位的技术从业者产生了不同水平的影响。不论是对 IT 主管还是对一线开发人员和运维人员来说,从业务逻辑到技术选型,整个技术栈都产生了翻天覆地的变动。为了更好地迎接云原生时代的到来,大家有必要深刻理解云原生落地实际对不同岗位的影响。

随着云原生理念与云原生技术的不断完善和倒退,越来越多的行业开始落地实际云原生技术,这对不同岗位的技术从业者产生了不同水平的影响。不论是对 IT 主管还是对一线开发人员和运维人员来说,从业务逻辑到技术选型,整个技术栈都产生了翻天覆地的变动。为了更好地迎接云原生时代的到来,大家有必要深刻理解云原生落地实际对不同岗位的影响。

CXO 和 IT 主管

很多企业对技术类 CXO(包含 CTO、CIO、CISO、CDO 等,本文均称为 CXO)和技术主管这些技术领导者的能力要求是全面而严苛的,技术领导者不仅要可能兼顾技术治理的各个方面,还要以维持公司业务为外围职责。因而,CXO 和 IT 技术主管既要领有广阔的技术视线、杰出的技术判断力甚至高层架构设计能力,还要具备良好的产品意识,以应答一直变动的内外部环境。

外部环境

作为企业的 CXO 和 IT / 研发主管,这些高层角色首先必须意识到:云原生是云计算倒退的必然趋势,云原生重塑了企业数字化转型的根底技术平台,云原生架构是构建现代化企业应用的根底技术架构。无论是对于互联网利用、企业交易类利用、大数据利用,还是对于人工智能类型的负载等来说,云原生架构都十分重要。

其次,对于技术管理者特地关注的问题,比方开源凋谢、国产化等,CXO 和 IT 主管须要看到,大多数云原生相干技术和规范来源于各支流开源基金会的我的项目,这些技术和规范形成了开源凋谢的技术体系。各大云供应商推出的云原生服务也都兼容了相应的技术和规范。开源的云原生技术和产品十分合乎企业客户“无厂商锁定”的诉求,当更换云服务提供商(Cloud Service Provider,CSP)或独立软件提供(Independent Software Vendor,ISV)时,企业不必放心会呈现技术上无奈切换或者迁徙老本太高的问题。国产化日益成为国家和企业的刚需。企业须要抉择合乎国产化规范的云原生产品,包含云原生产品的自主可控能力、奉献的源代码(通常体现在运维、API、组件扩大等方面)、国产化服务器反对等。同时,像中国信息通信研究院、中国电子技术标准化研究院等单位也为企业提供了相干评测,以帮忙企业抉择合乎国产化规范的商业化产品。

外部环境

在企业外部,CXO 和 IT 主管必须联合企业理论状况,利用云原生技术推动企业的技术升级,并实现技术和业务价值。

首先,在策略和组织层面,利用 ACNA(Alibaba Cloud Native Archite-cting)架构设计办法评估和制订企业的云原生策略和施行门路,并使之成为企业整体策略的一部分,以帮忙和减速企业的数字化转型。此外,云原生策略与企业中台策略一样,不仅是对技术的一次全面降级,也是对企业 IT 组织构造、组织文化的降级。现在越来越多的企业曾经意识到了这一点,以阿里巴巴为例,其不仅早在 10 年前就启动了云原生相干技术和产品的研发,2020 年云栖大会期间对于成立“阿里巴巴云原生技术委员会”的音讯,更是让外界看到团体推动阿里巴巴与蚂蚁团体全面云原生化的信心。

其次,因为云原生技术是对企业应用开发方式的全方位重构,CXO 和 IT 主管须要思考如何利用容器、微服务、Serverless、Service Mesh 等技术重写利用,利用 DevOps 重塑企业的研发和运维流程,利用 GitOps、IaC 和申明式架构从新定义企业的流水线和运维形式,利用可观测性和 SLA(Service-Level Agreement,服务等级协定)降级原来的监控零碎,利用云原生的以身份为核心的平安体系保障企业平安。

所有的技术升级的目标都是为了给企业带来理论价值,因而 CXO 和 IT 主管利用云原生进行技术升级时,须要关注以下几点。

  1. 运行老本及 ROI(Return On Investment,投资回报率)。
  2. 宽泛应用 BaaS(Backend as a Service,后端即服务)和弹性所带来的间接老本节约。
  3. 基于云原生的新技术、新工具、新流程带来的效率晋升。
  4. 稳定性、SLA 晋升带来的间接成本优化(危险降落、用户体验改善等)。

架构师 / 征询人员 / 零碎布局人员

对于架构师 / 征询人员 / 零碎布局人员等企业的技术中坚力量来说,云原生技术及架构在架构演进及危险管制、技术选型、构建现代化利用、IT 服务流程重塑、新工具利用、平安布局等工作中产生了粗浅的影响。

1. 架构演进及危险管制

云原生架构演进的基本在于扭转软件运行的基础设施环境—云平台,让下层的软件架构从“稳态”到“突破原稳态并构建新稳态”。这须要架构师 / 征询人员 / 零碎布局人员审慎评估企业的组织能力、开发和运维人员的技能程度、开发周期、老本估算、遗留系统集成、业务诉求等,并利用 ACNA 架构办法进行危险管制,以保障云原生架构在企业中安稳施行并继续施展价值。

2. 技术选型

技术选型波及两个方面,一方面是抉择哪些畛域的云原生技术和架构,另一方面是如何在同一畛域、多个相似的技术或产品中做取舍。对于前者,倡议企业依据云原生架构成熟度模型的评估维度,按架构迭代周期逐渐抉择与企业诉求和能力相匹配的技术畛域(比方,有的企业会抉择“容器 + 微服务 + 互联网中间件”构建企业中台)。对于后者,倡议企业在开源和凋谢的根底上,抉择有商业化反对(至多有同畛域胜利商业化施行的案例)的产品和服务,比方云平台提供的微服务、容器等系列服务。

3. 构建现代化利用

基于云原生构建现代化利用,企业能够实现业务敏捷性,以应答瞬息万变的市场挑战,为利用赋予动静扩大和强韧性的能力。企业外围架构师通过重写和重构企业外围软件,将云原生技术和架构迭代过程利用到这些外围软件的新一代研发中,让新利用具备现代化利用的特点。因为企业云原生化会带来利用架构的彻底降级,因而倡议尽量抉择对系统重写而非重构,从而最大限度地缩小对历史技术债权的偿还,同时能够缩小零碎的遗留包袱,减速新利用的现代化过程。

4. IT 服务流程重塑

企业在降级云原生技术后,整个 IT 服务流程也须要进行云原生降级,其中包含事件治理、问题治理、变更治理、公布治理和配置管理,这些流程自身的定义都是欠缺的。因为云原生技术定义了新的工具、办法和规范,因而整个降级过程变得更加自动化,解决流程也失去了简化。比方在事件治理流程中,可观测性工具的应用大大减少了监控的累赘,因为基于 Kubernetes 的云事件治理能够比拟好地笼罩从虚拟主机、容器、PaaS 服务、集成服务到利用层面所有事件的集中采集、存储、剖析、告警、关联性剖析和可视化展现过程,从而晋升服务台以及后续的事件处理效率。

5. 新工具利用

云原生技术体系中关联了大量的新工具,这些工具能够极大地提高云交付、星散成、云运维的效率。如果企业短少这些工具,会面临自动化水平有余、IT 信息碎片化、运维危险低等问题。因而,架构师 / 征询人员 / 零碎布局人员须要为企业的 CI/CD(继续集成 / 继续交付)过程、微服务施行、PaaS/SaaS 服务的云开明与集成、企业 CMDB(Configuration Management Data Base,配置管理数据库)集成、企业监控集成、账号 / 权限 / 认证集成等场景抉择甚至开发实用的工具,以晋升企业的运维自动化程度,升高运维危险。

6. 平安布局

在数字化转型的背景下,尽管数字资产的价值失去一直开掘,然而危险也在一直加大。云原生提倡的 DevSecOps、零信赖模型和大量云平安服务,对权限管制、服务级动静隔离、申请级访问控制等安全策略进行了细粒度降级,从而实现了从代码开发到利用运维的端到端流程的安全控制。这个过程要求企业降级平安布局,以实现从云基础设施到利用平安的同步布局。

开发人员

云原生技术与架构对宽广技术开发人员(设计、开发、测试等技术人员)的影响十分大,具体体现在以下 6 个方面。

1. 技术栈

从前端到后端的整个技术栈开发人员都将因为采纳云原生技术而获益:开发环境逐渐从本地 IDE 变成云端 IDE,并在 IDE 中预集成云服务(比方,应用 Cloud Toolk it,在 IDE 中实现利用部署),使整个代码的编写和调试效率更高;服务于前端的后端(Backend for Frontend)层因为采纳 Serverless 架构和大量的 PaaS 云服务而简化技术栈,使开发人员从后端运维中解放出来;后端研发人员须要关注会大量用到的技术,比方容器、微服务、Serverless、Service Mesh、PaaS 云服务等。

2. 分布式设计模式
**

云原生技术体系蕴含了大量曾经存在的分布式设计模式,并将这些设计模式交融到开源产品和云服务中,从而极大地升高了架构师和开发人员的工作强度。比方,微服务以及 ServiceMesh 等能够预置灰度模式、熔断、隔仓、限流、降级、可观测性、服务网关等架构模式。而诸如事件驱动架构模式(Event-Driven Architecture,EDA)、读写拆散模式、Serverless 模式、CQRS(Command Query Responsibility Segregation,命令与查问责任拆散)模式、BASE(Basically Available,Softstate,Eventual consistent)模式等则须要从利用架构层面引入,无奈对利用做到通明。

3. 业务开发

云原生技术和云服务采纳得越多,开发人员在非性能个性开发方面所破费的精力就越少,从而有更多的工夫和精力关注业务自身的功能性设计。基于 Service Mesh 和 Serverless 开发的利用,开发人员甚至不必关怀服务器的运维,不必一直降级依赖软件,不必解决灰度热升和主动回退的复杂性,毋庸采纳在线流量压测来缩小集成测试和冒烟测试的工作量。

4. 测试形式

传统的基于预测来设计测试案例的形式,效率太低,解决办法是利用被动故障注入和混沌工程进行疲劳测试,实在地模仿事实世界可能产生的故障。而在线流量录制和回放的 测试方法能够疾速造成测试案例并晋升回归的有效性。更要害的是,这些测试方法都是间接在生产零碎中进行的,没有当时在测试环境中通过测试,像 NetFlix、亚马逊、阿里巴巴等互联网公司都在大量采纳这些测试形式,以升高大规模分布式环境带来的故障危险。

5. 软件研发和运维流程

对于从传统瀑布模型到变为麻利开发方式的企业而言,DevOps 和 DevSecOps 对研发流程的扭转更为显著,其不仅要求企业做到平安地继续公布,还要求企业从新定义和标准研发人员接触的研发流程和研发工具,实现开发和运维岗位的一体化,设立专一于晋升工程稳定性、效率和品质的岗位,能够说是从新定义了研发和运维的组织、流程和文化。

6. 学习场景

云平台是数字社会的基础设施,是新基建的重要组成部分。很多最先进和最新的 IT 技术、理念都会在云平台上有所体现。这些新技术背地的开源我的项目以及围绕开源我的项目的大会、团聚、讨论区、技术博客等,是宽广技术人员学习和晋升技能的绝佳场合。此外,云计算相干的技术媒体往往会提供大量云原生畛域的新技术和新解决方案,开发人员通过学习能够拓宽视线,晋升技术能力。(这些技术媒体通常会提供在线文档、直播、视频录像、技术文章、博客等资源。)

运维人员

包含 SRE(Site Reliability Engineer,网站可靠性工程师)在内的运维人员,作为软件胜利运行的保障者,也会受到云原生技术和架构的深刻影响,特地是在技术栈、运维工具、监控和错误处理、SLA 治理、AIOps 等方面,具体阐明如下。

1. 技术栈

运维人员的技术栈扭转,一方面是因为运维的软件采纳了云原生技术栈构建而被动引起的,另一方面则是基于被动利用云原生技术和工具构建新的集成、监控、自动化、自愈、性能治理、高可用治理、平安治理、SLA 治理、IT 资产治理、事件治理、配置管理、变更治理、公布治理、补丁治理等工作和流程而带来的。这里典型的利用场景是利用 Kubernetes Operator 施行自动化的资源创立、交付和实例迁徙操作。

2. 运维工具

云原生架构特别强调通过 IaC 和申明式运维来实现运维过程的高度自动化,即便是在领有几百上千台机器的简单分布式系统中,也能够自动化解决部署、降级、回滚、配置变更、扩 / 缩容等操作。而 GitOps 作为 IaC 的一个外围落地理念,不仅蕴含了对系统指标态的形容,而且贯通了整个变更过程,既合乎 DevOps 的透明化准则,也具备申明式运维的长处。

3. 监控和错误处理

从用户反馈和发现零碎指标异样到采取多种运维伎俩确认、剖析并解决问题和故障,是日常错误处理的重要工作领域。可观测性强调了一次业务的执行可能从多个分布式服务、容器、虚拟主机、网络、BaaS 服务中取得日志、度量和追踪信息,从而进步监控能力和错误处理效率。云原生技术不须要运维人员从多个分布式节点收集和关联这些信息,而是由 Prometheus 和 Grafana 帮忙实现多维度信息的关联性剖析、告警和可视化展现。

4. SLA 治理

有了度量指标信息后,咱们能够联合调用关系中失去的依赖关系,对业务服务和 PaaS 组件进行 SLA 治理,进而对全局的服务和 IT 资产进行 SLA 治理。在没有相似于 Service Mesh 和可观测性这些基础设施和能力的状况下,传统的监控零碎只能尽量从不同格局的日志中去获取这些度量指标信息。如果软件没有打印度量指标信息,监控零碎就无奈获取;同时,因为不足全链路的依赖关系,SLA 治理不能做到上下游的关联剖析,从而导致系统不能第一工夫感知某个服务或组件是否达成其 SLO(Service Level Objective,服务等级指标)。这些问题在云原生零碎中失去了很好的解决,进而能够帮忙运维人员晋升零碎的 SLA 管理水平。

5. AIOps

AIOps 是指在运维中利用机器学习和人工智能技术被动剖析和预防故障,同时放慢故障处理速度。当在大量业务服务和技术组件中施行可观测性操作后,零碎将会产生大量的日志、度量和追踪数据,通过实时的机器学习和人工智能技术对这些数据进行剖析,能够辅助变更前后异样检测、多个事件的关联性剖析和“假阳性”打消、根因剖析、自动化异样节点摘除和应急复原等操作。

软件交付工程师 / 系统集成工程师

作为软件交付链条中的重要角色,软件交付工程师和系统集成工程师也会因为利用了云原生技术相干的软件,而扭转工作形式。

1. 标准化交付

交付过程中最大的艰难之一,就是不同的客户具备不同的 IaaS 环境,包含不同的服务器或虚拟主机技术、网络环境、存储产品、操作系统和根底软件库等。IaaS 环境的不同不仅使得交付软件产生了不同的版本,而且在不同的交付阶段也会发生变化,这又进一步提高了交付治理的复杂度。容器和不可变基础设施不仅可能屏蔽 IaaS 组件的不同,而且在容器的运行环境发生变化时,能够通过不同的镜像造成不同的配置版本,而不是原地批改降级的形式(这种形式会失落版本的配置信息,或者使不同版本的配置变得难以治理),从而标准化软件的交付过程,隔离 IaaS 层的频繁变动对下层利用配置变动的“传染”,以达到晋升软件交付效率的目标。

2. 自动化交付

软件集成和交付的另外一个难点在于,须要提供相应的软件配置、装置或部署手册(相干人员须要学习这些手册),而后适配规范部署与不同环境部署之间的差别。在这个过程中,装置脚本只是辅助性工作,因为它并不需要晓得手册中的常识。云原生 OAM(Operation Administration and Maintenance,操作保护治理)通过 YAML 文件从利用的角度对软件的运行环境、形成以及运维特色进行元数据级别的形容,同时形容软件部署的终态以及能够适配的配置变动。脚本是能够读取和了解 YAML 文件的。同时,咱们能够看到,同一个软件在典型场景中的部署是能够被标准化、开源以及共享的(比方,Redis 在阿里云 ECS 上的部署过程)。这不仅能够自动化常用软件的交付过程,而且能够共享典型环境的交付教训,从而晋升交付程度。

3. 云交付和星散成

云计算为软件提供了一个新的运行场合,以及一种新的交付模式。同时,云计算也是一个软件交付的 POC(Proof of Concept,验证性测试)场合。软件与云的集成成为一种新的软件集成模式,造成了新的 CSI(Cloud System Integration,云集成商)。零碎先与部署在私有云中的软件进行小范畴集成,而后通过云原生交付工具将私有云中的环境一键式地复制到公有云环境中。这在简化集成复杂性的同时,升高了集成和交付的老本。

4. 继续交付

软件的继续交付是 DevOps 过程中的必要环节。通过影响范畴小且频繁的交付,DevOps 能够使软件的交付过程变得更加自动化、版本化,能够反复且主动地执行降级和回退操作。继续交付能够保障软件始终有一个最新且可用的版本,即一旦代码或配置产生了变更,就能够立刻生成新的版本并校验这一新版本的可用性,从而晋升软件的交付效率。

5. 宽泛的工具链和常识体系

云原生技术体系是开源的,领有广泛应用的开源组件产品和凋谢的常识体系。通过这些产品和常识,软件集成工程师和软件交付工程师能够疾速学到最新的云原生技术,取得最合适的云原生工具链,并在本人的环境中进行疾速验证。不仅如此,企业通过互联网渠道取得所用产品的根底技术常识,也能在肯定水平上升高软件交付过程中的培训老本。

从数据库管理员到数据库架构师

数据库管理员(Data Base Administrator,DBA)在传统商业数据库和开源数据库产品体系中扮演着无足轻重的角色。他们是保障整个软件系统稳定性的要害一环。云原生技术和产品的倒退,也粗浅地影响了数据库管理员。他们的工作形式正在产生微小的转变,关注重点从底层零碎建设逐渐转向业务零碎架构设计、从根底稳定性逐渐转向业务构造优化、从如何用好数据库软件逐渐转向如何用好云原生产品体系等。与此同时,企业对于运维对象、运维平台、技术能力的要求也产生了微小的变动。

1. 运维对象

随着云原生架构的一直演进,已经遥不可及的 DaaS(Database as a Service,数据库即服务)已成为事实。云数据库提供了开箱即用的 PaaS 化服务,并通过云原生资源池化技术提供了计算资源池、存储资源池等丰盛的云原生数据库产品。这使得数据库管理员的运维 对象从主机、网络、数据库转变为数据库服务。数据库管理员不再须要关注从 IDC(Internet Data Center,互联网数据中心)到主机资源的交付。这些根底服务都会由云平台实现。云平台将施展供应链的规模化效益和虚拟化技术,提供远低于自建 IDC 老本的优质服务。在云计算时代,数据库管理员借助云计算的 IaaS 化服务能力,在日常工作中卸下了根底资源运维的工作累赘,从而能够有更多精力关注数据库服务对业务的撑持能力,将运维对象的重心转向数据库服务。

2. 运维平台

在商业数据库时代,数据库管理员的根底能力是用好繁多的数据库产品,建设根底运维平台,实现数据安全、服务高可用、备份复原、性能监控、问题诊断等根底性能。即便是在开源数据库时代,大多数公司的数据库管理员也是围绕着下面所列举的几个方面,或从零自研或基于开源运维组件进行定制化批改,这消耗了大量的人力、物力资源,而且很难取得继续的运维能力。一旦有外围运维人员散失,企业很有可能会呈现平台难以为继的场面。而在云原生架构下,数据库 PaaS 平台提供了丰盛的运维能力反对,因而数据库管理员不再须要从零开始建设运维平台,从面向根底组件的运维转向面向数据库服务的运维,得以基于云平台提供的丰盛 OpenAPI 实现业务反对能力的定制化开发,将如何为业务提供稳固的数据库服务反对作为运维平台的首要指标。同时,随同云平台根底能力的逐渐晋升,新技术借助 OpenAPI 体系的劣势,使得面向数据库服务的运维平台能力可能失去继续晋升。因而,咱们须要意识到,只有转变运维平台建设的指标,才可能充分发挥云原生架构平台化的劣势。

3. 技术能力

云原生时代丰盛的云服务带来的技术和架构劣势,将传统数据库管理员从根底问题中解放了进去。企业更须要具备基于云服务进行业务数据架构设计能力的架构师,而非传统意义上的运维数据库管理员。因而,数据库管理员须要尽快实现转型。在云原生架构下,过来很多须要数据库管理员破费很大精力去解决的问题都迎刃而解。典型的例子是数据安全问题,数据安全向来是数据库管理员工作的重中之重,他们将微小的精力都投入磁盘容灾、机房容灾、数据备份等数据安全保障工作中。云原生时代的多 AZ(Availability Zone,可用区域)以及分布式存储架构,在解决数据安全问题方面具备人造劣势。再比方容量布局问题,数据库容量布局始终是一个很难把握的难点。在业务模型发生变化的期间,如在大促等场景中,很容易呈现零碎容量有余的问题。云原生零碎借助资源池化技术,施展云原生存储计算拆散架构的弹性能力劣势,能够将扩大周期从原来的“天”级别大幅缩短为“秒”级别;共享存储技术更是能够在秒级别实现读节点拉起,实现零碎读容量的扩大。置信在不久的未来,随同 CPU 池化、内存池化、多点可写技术的冲破,数据库容量弹性能力将更加弱小。

另外,SQL 优化始终是数据库管理员日常工作中很重要的一部分。领导业务开发人员编写合乎数据库个性的 SQL 始终占据着数据库管理员很大的工作比例。在云原生时代,云原生的主动优化零碎基于机器学习和专家教训实现数据库自感知、自修复、自优化、自运维及自平安的云服务,能够帮忙数据库管理员升高数据库治理的复杂度、打消人工操作引发的服务故障,从而无效保障数据库服务的稳定性、安全性及高效性。

在云原生时代,云服务在很大水平上解放了数据库管理员,同时也要求数据库管理员尽快实现集体能力的转型,减速从数据库管理员向数据库架构师的转变,从而更加深刻地参加到业务零碎的架构设计中,帮忙开发人员用好云数据库的个性。

结语

云原生技术从业务流程、技术选型、技术栈等诸多方面影响着相干技术角色的日常工作,而云原生技术所带来的影响还远不止上述这些。在云原生已成为将来必然趋势的大环境下,不同岗位的技术从业者也要遵循云原生所强调的专一业务并一直演进,学习和接收云原生的理念与技术,从而通过云原生技术和产品更好地开释云计算的价值,更好地反对相干业务的倒退。

版权申明: 本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0