共计 6542 个字符,预计需要花费 17 分钟才能阅读完成。
简介:四位企业运维大咖开展对话,探讨“云时代下,企业运维面临的挑战与时机”。
编者按:上云,曾经成为了企业势不可挡的抉择。云计算所领有的“软件定义所有”的个性,推动了麻利弹性、DevOps、智能运维和基础设施即代码等自动化运维趋势,给企业研发运维体系的进一步降级带来机会,也给企业架构师与运维工程师带来了新的挑战。
12 月 10 日,在 2021 云上架构与运维峰会上,阿里云邀请到了 CSDN 生态内容总监董世晓作为负责人,与高效运维社区华东技术负责人陈刚、红帽资深解决方案架构师陈炯、大搜车基础设施部负责人李同刚和任意门运维负责人尤首智等四位大咖开展对话,探讨“云时代下,企业运维面临的挑战与时机”。
以下为圆桌探讨实录整顿:
主持人:CSDN 生态内容总监 董世晓
四位圆桌对话嘉宾
Q1 企业为什么要上云?
主持人:上云曾经是业内共识,但也存在一些不同的声音。各位嘉宾都是上云的资深人士,那么首先想跟各位探讨一下,企业为什么要上云?上云带来哪些益处?还存在哪些问题?
陈刚:这是一个常谈常新的话题。企业上云最次要的驱动力是在 IT 老本方面的微小劣势。云厂商的价格在逐年降落,这对很多企业造成了微小的诱惑力。一些入门级的云服务器配置,一年的价格都在千元之内,中小企业面对这样的高价很难不动心。企业本人买一个机器放在托管机房,再加上人力保护老本,破费预计是云服务器的 10 倍以上。企业上云,老本可控力是其微小能源。
第二点就是随着云计算技术的倒退,各种 IaaS、PaaS、SaaS 平台和利用日渐成熟,大小企业都心愿可能在云技术方面与时俱进,享受到最新的云技术带来的 IT 劣势,在强烈的市场竞争当中放弃科技当先劣势。
与此同时,咱们也要感性地去判断企业上云的利与不利,做出最适宜本人的抉择。我从事运维工作超过 20 年,服务的企业包含国内外的一些电商、金融企业以及云厂商,参加过一些机房的建设以及经营,也见识过很多企业上云胜利和失败的案例。
企业上云的老本节约对中小企业成果最显著,因为这类企业的要求都是一些标准化的需要,比方前后端、中间件、数据库,根本不须要定制的 IT 框架,现有的云仓规范计划就能够解决。然而一旦企业上了规模,比如说金融行业,银行、保险、证券这些大型企业,上云就比拟波折,在初期甚至还会减少一些 IT 老本。
因为在上云的过程当中,很多企业既要放弃现有的基于实体机和虚拟机构架的稳固运行,又要在上云的过程中稳固运行。所以他们须要投入额定的人力进行技术试点和技术摸索,并且在过程当中要始终放弃服务的兼容性。同时,很多大型企业会提出一些更高的要求比方构架回退打算,这简直相当于高危动作,这些动作无疑都会减少企业在初期的 IT 投入。
陈炯:咱们在传统的运维模式里常常会提到一个话题,就是自动化。标准化就是自动化的前提,咱们上云十分重要的一个起因,就是能失去一些标准化的交付。云市场上有各种各样标准化提供的软件和硬件,在应用这些软件和硬件的同时,咱们享受到了标准化的服务,这对前期的运维也会带来十分大的便当。
李同刚:企业上云第一个长处就是快。在内部需要变动十分快的明天,如何进步基础设施的交付,让商业过程更快,是每个运维人员必须思考的。上云当前,能够利用云的资源疾速交付并实现业务价值。
第二个长处是省,特地是在平安方面。上云当前,企业能够按需付费应用云产品,比照上云之前的私有化部署,老本会显著降落。
尤首智:对于企业为什么要上云,我的观点分为以下 4 个局部:
◾ 机房限度。传统的物理机房包含带宽、专线、电力等方面的限度,无奈满足企业疾速成长的需要,云上的架构的劣势会更显著。
◾ 使用率。应用 IDC 的物理机配置绝对较高,导致使用率是一个防止不了的问题。很多技术都是为了解决这些问题,包含业务的混布、容器的技术,但都不是特地好的形式。问题的外围点还是在于弹性能力的有余。
◾ 中间件。云上提供的中间件包含云呼、实人认证、智能语音交互等产品。对于像 Soul 这样的中小型企业,在现阶段投入特地大的人力和精力去做一些偏功能性的中间件,最终的收益肯定没有间接应用云上的产品来得高。
◾ 费用。对于费用,要看业务的状态和业务的特点。中小型企业上云的运维老本是更低的,一是省在共享能力,二是省在弹性能力。云上的多种机型的配置、竞价实例、WAF、原生防护,均有提供共享模式为企业节俭费用。
Q2 云上运维工作最大的挑战与解法?
主持人:从上述分享中咱们能够晓得,企业上云当前能够享受到标准化的服务,高效、省钱、省力、平安。但对于一些有特殊要求的利用场景,还须要相干体系的进一步欠缺。
接下来想和各位嘉宾交换的是,上云对运维工作有哪些挑战?在各位本身的实际或者服务客户的过程中,是怎么解决这些挑战的?
陈炯:咱们当初面临的曾经不是传统意义上的监、管、控的运维了,而是对立运维,是将来的智能运维甚至云运维。然而在落地过程中,咱们还须要解决以下几个问题:
◾ 实现对立运维。咱们当初面临的环境非常复杂,不是传统意义上的单个机房或者一个 IDC,而是一个多云的环境,公有云、私有云,还有虚拟化平台和将来的容器平台等,不同的平台有不同的逻辑,须要用不同的技能进行运维,导致对运维人员的要求比拟高。所以咱们心愿可能突破不同平台之间的差别,用同一种形式对所有平台进行运维。
◾ 突破运维隔离。目前各个运维团队都是孤立作战,相互之间不足协同单干。孤立运维会造成很大的困扰。比方在我的项目过程中,各个团队都保护本人的利益,不违心被动认领问题并解决,这对工作效率是有很大的影响的。
◾ 躲避手工运维。在目前的运维过程中还是存在十分多手工运维的操作,这会导致效率问题和平安问题。其次,频繁地登录服务器去做一些命令操作,也存在安全隐患。所以咱们心愿有一个平台代替人工去做此类重复劳动,防止人为的重复劳动和过多的登录服务器。
◾ 运维人员常识固化。运维过程十分多的常识是保留在运维人员的大脑中的,这些常识十分贵重,然而并没有一个零碎可能把这些常识固化保留下来,让其余的人员能重复应用。保障当这些人员不在场的时候,团队的运维能力也不会呈现问题。
以上 4 点就是咱们目前面临的比拟大的挑战。
李同刚:企业上云面分为两个阶段,第一阶段是 IDC 机房上云,第二阶段是技术架构上云。技术架构上云和业务程序的联合比拟严密,所以波及兼容问题。很多企业有多云的需要,如何让基础架构同时兼容两个云,这是亟待解决的问题。
冀望将来在多云的技术架构和技术协定上可能达成共识,真正的升高企业跨云的兼容性老本。
尤首智:我认为企业上云次要有以下 4 个难点:
◾ 迁徙老本。基础设施从传统的 IDC 引入云计算,是对 IT 的基础设施和基础架构的一次变革,而迁徙过程中的稳定性和原有的治理形式也要从新打造,这确实是一个不小的工程。
◾ 平安和合规。数据从企业原有的 IDC 迁徙到云上,会有数据泄露的危险。
◾ SLA 保障与掌控力。企业与私有云都签有 SLA 的保障协定,私有云的 SLA 相比企业是比拟高的,个别能够达到 4 个 9,但私有云产生故障的时候企业会显得大刀阔斧。
◾ 长期开销。后期的上云是在一个固定的工夫节点,也能够算出整体上云的长期费用。但随着企业的扩张以及业务类型的变动,会产生资源向某一方面歪斜,导致费用不可控。
陈刚:我次要分享对于大型企业在上云过程中会面临的三个挑战。
◾ 大型企业可能会受到一些行业协会的强制要求,比如说证监会、保监会、银监会等,要求保证数据的保密性和数据的安全性,这就导致了他们的很多数据不能用公共云来齐全解决,从而只能抉择建公有云,或者搭建团体外部的对立云平台来做混合云解决方案,这其实就相当于一种变相的反复建设。
◾ 运维人员面临技术转型的挑战。很多企业在上云之前曾经造成了实体机与虚拟机方面很成熟稳固的运维体系。在他们在上云之后,运维人员的技能转型就要面临很大的挑战,对现有运维人员的技能进行培训转型晋升,或者招聘新的运维人员,都将是一个漫长的过程。
◾ 现有平台与云原生技术不匹配的挑战。一些企业的平台,无论是天然的、二次开发的或者乙方的资源,不肯定会能跟云原生技术服务齐全匹配。他们上云就会比中小企业的通用上云难度翻倍,工夫翻倍,老本翻倍,并且不肯定保障转型胜利。
Q3 国内 XOps 的接受度与落地状况如何?
主持人:企业上云对运维工作的挑战与云上的安全性、稳定性、兼容性、常识的可传承性都密切相关,解决好这些问题,运维工作就能更好地发展。在国内,咱们把各种 XOps 都对立称为自动化运维,企业对这种 XOps 的接受度怎么样?在各位接触的过程中,有哪些不错的自动化运维的实际?
李同刚:自动化是运维畛域始终在谋求的话题。我会从两个方面对自动化运维的落地状况进行剖析。
◾ 第一点,自动化运维有大量的告警监控,如果数据量过大,就会造成告警有效。咱们能够通过对历史数据的积攒和剖析,总结出它的趋势,而后通过自动化学习的形式和一些数学模型,主动给指标做阈值的调整。原先的告警是一个固化的值,但靠固定值不能做到足够高的准确率,所以通过机器学习的形式,主动学习历史数据的趋势,达到主动告警。目前咱们梳理了 100 多个指标,正在和阿里云的 SLS 服务进行对接。
◾ 第二点,主动剖析故障根因。在网络拓扑中,报警业务应该是感知最快的。如果整个服务到数据库层到服务层链条的日志是残缺的话,实践上是能够依据业务上的故障,来推出这个故障到底是数据库还是虚机或是其余的起因。
总之,从数据这个方向登程,咱们心愿能给运维畛域带来一些卓越且超出冀望的功效。
尤首智:首先谈一下 DevOps 理念,DevOps 曾经被国内很多的公司承受,外围劣势是进步人工效率,缩小重复性的工作。从 DevOps 到 AIOps 是咱们将来的风向标,可能实现从人工决策人工执行到主动决策主动执行的演进。以下两点是 AIOps 在 Soul 的落地状况:
◾ 第一点是资源老本把控。首先从资源申请层面把控,避免资源的节约,再到服务水位的把控,主动开启弹性扩缩容、业务指标感知、流量的主动切换和主动调度,最初是业务的主动熔断机制。
◾ 第二点是业务监控层面。首先监控指标的剖析,能够有助于咱们疾速定位问题的根因,其次对故障类型进行判断,剖析故障影响的人数、故障级别以及历史故障的举荐,有助于疾速解决故障。
陈刚:对于 XOps 在国内落地的状况,我次要从两个方面进行剖析。
首先,国内的几个一线互联网大厂对 XOps 的了解利用都曾经比拟成熟了,甚至在某些畛域,这些大厂自身就是 XOps 业务的风向标,同时在国内畛域他们也都有本人的原创输入。
其次,这两年我次要是给国内的大型金融企业做 DevOps 转型的征询和培训。他们对 DevOps 还是处于初期的理解张望再跟进的态度。同时,他们对 AIOps、ChatOps、GITOps 等也心愿可能同步跟进和理解。
比方往年 10 月份,华泰证券、浙江挪动都通过了工信部上面信息通信研究院颁发的 AIOps 能力证书,其中的能力包含异样检测、告警收敛、根因剖析和故障预测等。浦发银行、国泰君安这些大型银行证券也正在 AIOps 的能力建设以及认证的过程当中。
国内的 XOps 征询工作个别须要继续半年到一年,因为在 XOps 落地过程当中确实有很多艰难须要去克服,然而只有咱们始终保持往前走,XOps 国内肯定会遍地开花。
陈炯:咱们红帽针对运维自动化这一块也有比拟残缺的解决方案。从这么多年实际的角度来看,咱们发现在国内的企业中用到自动化的场景次要有以下这几点:
◾ 用自动化带动标准化,通过自动化平台的引入,帮忙企业去建设一套标准化的体系,包含它的零碎、平台等等各种设置应该如何实现标准化。
◾ 通过自动化来实现零碎的主动巡检,主动配置管理等等一系列日常的治理。
◾ 应用自动化平台帮忙企业进行故障的根因剖析,甚至故障的自愈。
◾ 帮忙企业实现利用自动化公布,甚至灾备切换自动化等等。
自动化能实现的场景是十分丰盛的,有多大的想象力就可能实现多大的性能。
Q4 云时代,运维人员外围竞争力何在?
主持人:总结来说,一线大厂对 XOps 的接受度和利用度是比拟高的,然而放眼到整个行业的转型方面,XOps 还存在回升空间,比方体系化遍及利用这方面。
后面提到了上云之后省钱省力更平安,但这是否意味着包含运维人员在内的好多岗位会被代替?云时代的运维人员如何打造本人的外围竞争力?各位如何对待这个问题?
尤首智:我从三个方面来论述我对这个问题的认识。
◾ 首先,要从观点上扭转。运维有一部分反复或简略的工作,例如构建资源或底层根底环境,这些是会被重度依赖的,却不肯定是必要的反复去做的。
◾ 其次,是工作重点的扭转。上云之后这部分反复或简略的工作会被私有云本身的能力所代替。但对于运维人员来说,这并不是一件好事,他们能够更多地关注业务的稳定性,也有更多的工夫来晋升本人,要怯懦的跳出舒服区域。
◾ 最初,如何了解与利用好私有云。我对私有云的了解是它能够满足所有企业 80% 以上的需要,但简直无奈满足他们 100% 的需要。咱们要利用好已有的 80% 更快更好的构建公有局部,从公司和业务的层面更快看到后果。运维的价值是进步业务稳定性,这是企业是最关怀的一点,而这部分的能力由私有云来提供是一个很好的解决办法。
陈刚:企业上了云之后不须要那么多运维人员,这些人是否就要面临就业?我依据本人的教训来对这个问题进行一个论述。
前几年我已经参加过一个我的项目,对企业进行 DevOps 赋能,而后将利用向 K8s 迁徙,同时引入一些云原生的实际。在我的项目进行当中我须要率领两名共事从头到尾进行技术的攻坚和摸索,最终造成落地计划。
过后部门有 20 个左右的运维共事,大多还是以传统的数据中心的运维技能以及实体机和虚拟机为主。在转型过程中,的确有一部分的运维人员放心本身技术失去外围竞争力劣势,然而咱们在转型的过程中其实可能积攒很多最佳实际方面的文档和 PPT,在企业外部进行培训和宣贯,争取把想学习、想晋升技能的运维共事及时地晋升到公司须要的水平线上。
企业在上云转型过程中的运维人员,要么对现有运维人员进行培训晋升技能来匹配转型的要求,要么从内部引入新的运维人员,没有第三条路能够走。我置信只有运维人员有晋升本人技能的欲望,与时俱进,肯定可能稳步前进,并且运维人员站到云端当前也能够对社会做出更多奉献。
最初,古代社会市场竞争强烈,犹如逆水行舟,逆水行舟。在企业上云的过程当中,的确也会淘汰一部分不违心进取转型的低层次运维人员。其实这就是适者生存的概念,不只是在运维界,在有社会分工的中央,就会有优胜劣汰的机制。
陈炯:在 IT 建设过程中,产品、流程和人员始终是绕不开的三个次要话题。企业上云并不意味着运维人员的就业,而是新的环境战争台下,咱们对人员的要求产生了变动。
以前,运维人员只须要会打命令、写代码代码和脚本,然而上云当前就远远不够了。他们须要去制订整个运维的体系规范和残缺的运维流程,甚至要从闭环的角度来看一个全生命周期的治理。并且在对故障进行根因剖析的时候,能从不同的角度自主地去发现。还有十分重要的一点,在构建环境的时候,可能辨认哪些软件和零碎可能整合在一起,进行比拟好的协同运作。
所以说,运维人员不是要被代替,而是他们的能力要失去很大的晋升才可能满足将来 IT 运维的须要。这是我的观点,谢谢主持人。
李同刚:我感觉从另一方面讲,这其实是一个时机。
以前,运维人员是以懂各种中间件技术而引以为傲,但其实这未必是运维岗位最有意义的事。运维实质上是要保障业务的稳定性和 IT 老本的合理性。但这两个指标并不是靠技术来实现的,而是须要联合本公司的理论状况来制订解决方案,这是一整套的体系。
这一块的能力目前来看机器是很难代替的,所以咱们能够把一些简略反复的事交给机器去做,人去做机器做不了的事。一方面,这样对人员自身的技能是一个晋升,另一方面,公司也可能取得间接的业务价值。
圆桌对话总结
主持人:的确容器、集群技术对运维人员提出了很大的挑战,但运维人员须要做的是踊跃迎接和学习新的技术。另外在上云之后,运维人员能够多做一些机器做不了的事件,比方流程、标准等方面的制订。
企业上云尽管还面临着很多挑战,但更多的是时机。置信随着企业运维体系的欠缺,新的运维技术的加持,运维人员外围能力的晋升,云上会越来越精彩,咱们一起致力。
原文链接
本文为阿里云原创内容,未经容许不得转载。