共计 3520 个字符,预计需要花费 9 分钟才能阅读完成。
随着业务飞速发展,当贝的传统 IT 资产也渐显臃肿,为了防止制约倒退的瓶颈,痛定思痛,技术团队果决改革:外围业务云原生化之后,运维效率、整体稳定性和研发效率均失去了全面晋升。本文次要简述当贝技术团队云原生之路的背景诉求、落地办法和播种成绩。
前言
当贝成立于 2013 年 8 月,中国出名的智能大屏增值服务提供商之一,中国大屏应用软件分会会长单位,是一家横跨软件、硬件和操作系统全生态的大屏端互联网平台型公司,致力于成为亿万家庭 AIoT 的外围入口和生存娱乐中心,间断多年入选将来独角兽榜单,国家级专精特新“小伟人”企业。
当贝云原生架构实际历程
传统运维体系的三大痛点
随着当贝的业务规模飞速发展,背地的 IT 技术也在不断更新迭代,IT 资产规模也在高速回升,不可避免地迎来一些挑战。其中,以运维体系的挑战最为显明,经团队总结,有以下三个较为突出的痛点。
人工运维效率低,危险大,老本高,资产治理艰难
传统运维体系下,有大量人工参加。从各环境代码公布,到顶峰低谷的扩容缩容,再到各类证书、云服务器等云资产治理,这些环节,人工参与度越高,危险越大,即使运维人员有着超高程度,也很难保障短暂状况下不呈现任何失误或忽略。
同时,人工参与度越高,效率也就越低,合作老本越高。为保障稳定性,每一次线上零碎变更,都须要协调大量跨部门配合,常常须要研发、运维、测试等多个岗位的同学深夜参加。
随着当贝 OS、当贝音乐、当贝市场等业务倒退多点开花,IT 规模也急剧扩张,云资产治理也成为了较为突出的痛点。
稳定性挑战大,异样排查及复原老本过高
当贝对系统稳定性、业务连续性有着极高要求。随着流量疾速减少,特地是在一些如春节联欢晚会这种状况下,流量往往以十倍乃至数十倍激增,对稳定性和容量布局造成极大压力。
同时,当生产环境产生异样,在传统的运维体系下,有着依赖链路简单、排查难度大、定位工夫久、牵扯人员广等外围痛点。
对此,整个服务端部门定下了 1-5-10 快恢及 99.95% 可用性两大要求,精准洞察问题外围,同时领导了解决思路。
在当贝各项业务高速倒退的状况下,落实这两大要求,是整个服务端团队火烧眉毛且必须打赢的攻坚战。
自建可观测体系落地简单,易用性和稳定性差,运维老本高
任何成规模的 IT 零碎,可观测体系都是极其重要的底层基石,它使 IT 架构的整体设计如依赖拓扑、调用链路追踪、技术标准、运行状况、稳定性等诸多信息清晰出现,除了定位排查以外,更有助于提前发现历史的架构设计缺点、零碎瓶颈并及时解决,在保障业务间断的同时,高效撑持业务倒退与迭代。
在晚期阶段,为保障各项零碎疾速上线、业务高速迭代,存在一些技术架构考虑不周、设计有余的状况,具体表现为选型不一、业务高度耦合、调用链路过长、云资源抉择不合理、治理不清晰等。这些因素组合在一起,造成宏大的历史包袱,在过来传统的运维体系下,曾自建一些可观测组件或框架,但却面临着稳定性差、运维老本高难度大、易用性差、体系不对立等各方面问题,以至于未能齐全施展其应有的价值。
现在,在当贝业务规模继续减速成长的背景下,亟需落地一套全面易用、平安稳固、性价比高的可观测体系,以反对公司行稳致远。
云原生架构的建设
面对传统运维体系非常突出的三大外围痛点,为防止其在将来对当贝可继续倒退的策略造成制约,当贝技术团队进行了宽泛钻研、深入分析、踊跃调研,最终将眼光瞄准在了云原生架构上。
正如阿里云在《云原生架构白皮书》中所言:云计算的下一站,是云原生;IT 架构的下一站,是云原生架构。
当贝技术团队极为认同这个观点,云原生是一个确定的技术发展趋势,越来越多的公司拥抱云原生,利用云原生实现更高效率的倒退及翻新。
经全局视角下的充沛评估,当贝技术团队在研发总监张子枭的领导下,提出云原生化、中台化、微服务化、数字化四大技术战略目标,决定全面转型云原生架构。
只有利用云原生架构,齐全解决传统运维体系危险高、效率低下的痛点,能力具备对局部积弊已久、陈疾顽疴的老零碎进行中台化和微服务化革新。
而在云厂商的抉择上,思考到阿里云是国内云计算的布道师与发挥者,实力寰球当先,对云原生技术倒退的奉献引人注目,同时其汇聚了业内最顶尖的人才、最丰盛的教训案例、最牢靠的成熟度,以及其“客户第一”的价值观,当贝技术团队最终抉择借力阿里云落地云原生架构转型。
容器化上云
在云原生架构基础设施畛域,Kubernetes 是当之无愧的领头羊。
相比于依赖虚机自建集群而言,由阿里云提供的 ACK 服务,有着更优弹性、更优韧性、免运维、更高效的资源管理等长处,同时无缝集成了大量阿里云产品。
依赖 ACK 及其集成的大量产品,当贝技术团队极快地实现了外围服务的容器化革新,并顺利完成灰度公布、全面切流等工作。值得一提的是,在新架构落地过程中,当贝技术团队不可避免地会遇到疑难杂症困扰,但正因为有阿里云大量的教训案例撑持、最佳实际领导,包含容量布局、可观测、平安防护、稳定性等诸多方面,使整个上云过程始终处于牢靠状态。
实现上云后,这些外围服务从开发态测试态,变更与运行态,贯通服务整个生命周期,效率都失去了极大晋升。
利用云原生 Devops,我的项目公布与协同效率晋升 300%,完全避免人工运维干涉的高风险性;利用 ACK 服务与服务器资源人造解耦的个性,齐全解脱了基础设施运维的低效困扰;利用 HPA+CronHPA,从容应对流量顶峰低谷……
不仅如此,这些外围服务整体资源利用率晋升了 20%,运维效率更是晋升了 500% 以上,使更大规模的 IT 资源管理成为可能。
在深度参加上云革新的过程中,当贝技术团队积淀了大量的常识与教训,为公司技术储备添砖加瓦,同时仍在积极探索云原生技术。
云原生网关
在引入 ACK 作为云原生的基础设施的同时,当贝技术团队也引入了 MSE 云原生网关作为流量治理组件。
在云原生网关将流量网关、微服务网关、平安网关三合一之后,不仅链路缩小、性能晋升,服务治理的复杂度也大幅降落,稳定性大幅晋升。
借助于云原生网关的高集成性,上云后的外围服务毫无侵入地就取得服务治理、平安防护、监控告警等能力,相比于当贝在过来传统运维体系下自建网关而言,云原生网关更具备着高可用、高性能、弹性伸缩、更易用等劣势,做到了网关层面齐全免运维,缩小人工干预的同时,大大晋升了 IT 零碎的整体稳定性。
正是借助 ACK+MSE 云原生网关的组合,当贝技术团队在简直无需运维老本的状况下,实现了 1-5-10 和 99.95% 的两大指标。
随着当贝 OS、当贝音乐等外围服务上云后的稳定性、业务连续性、研发效力大幅晋升,用户体验也失去了极大晋升,为当贝业务长期倒退,奠定了良好的技术根底。
至今,当贝技术团队仍在踊跃推动残余各项业务零碎上云,不遗余力地实现全面转型云原生架构的指标,充沛开掘云的价值。
可观测体系
建设全面易用、平安稳固的可观测体系同样是实现 1-5-10 和 99.95% 指标的重要伎俩,更是达成中台化、微服务化的要害撑持。
在确定全面转型云原生架构之前的评估环节,当贝技术团队就曾经深刻调研了阿里云的可观测体系解决方案。
在比照了过来运维团队自建的可观测组件,如日志服务、链路追踪等后,发现其存在易用性差、稳定性差,且运维老本昂扬、版本老旧等诸多问题,且对 ACK、MSE 云原生网关等云原生组件的反对存在适配老本。
可观测组件的初衷是为了晋升稳定性、保障业务持续性、出现链路拓扑等信息,以最终实现晋升研发效力,让每个人都能够做到成竹在胸。
如果在该组件自身投入大量运维老本、研发老本,最终只会轻重倒置,背道而驰。
因而,当贝团队最终决定采纳阿里云的可观测解决方案,次要以 ARMS、SLS、Grafana、Prometheus、云监控等产品,依赖它们与 ACK、MSE 等云原生组件高度集成的能力,构建了当贝在云原生下的可观测体系。
建设成绩
在面对传统运维体系的效率低下、危险大、老本高、稳定性差等突出问题上,为防止其成为当贝业务倒退的长期制约,当贝技术团队果决采取了全面上云的架构转型,在外围服务上云后,极大地解决了传统运维体系所带来的痛点,整体运维老本降落 80%,提效 500%,研发效率和稳定性都有极大晋升。
最要害的成绩,运维效率和危险两大制约的解除,基于此,当贝极快地推动了中台化、微服务化的落地,至今已根本实现。
将来瞻望
当贝在云原生技术上的转型与摸索,不仅开释了外部生产力,更大大晋升了用户体验,为公司长期可继续倒退的策略打下了牢固的技术根底。
但这只是当贝技术团队在云原生路线上的终点,随着业务倒退及微服务化的深刻,将来还会面临更多的挑战。当贝心愿逢山开路,遇水搭桥,丰盛更多家庭的客厅生存,为更多家庭带来乐趣。
作者:当贝技术团队
原文链接
本文为阿里云原创内容,未经容许不得转载。