摘要: 滚动降级作为大集群数据底座的必备能力,可能完满解决了传统大数据平台操作繁琐、业务停机、降级老本低等问题,实现一个架构的继续演进,业务无中断。
本文分享自华为云社区《华为云 FusionInsight MRS 如何实现千余节点滚动降级无业务中断降级》,原文作者:沙漏。
华为开发者大会 2021(Cloud)大会期间,由华为技术专家天团打造的《名师大讲堂》系列专题演讲,围绕云原生、大数据、人工智能等话题,探讨技术创新带来的价值,分享翻新实际。其中,华为云 FusionInsight 解决方案架构师许田立,分享了“千级节点的大数据集群如何无业务中断降级”主题。
华为云 FusionInsight 解决方案架构师许田立演讲照片
数据量激增,可继续倒退的数据底座尤为重要
随着 5G、IoT 技术的飞速发展,数据已成为重要的策略资源。据预测将来 4 年数据量将激增 4 倍 +,达 180ZB,到 35 年呈 50 倍增长。同时,数据作为继土地、资本、技术、劳动力的第 5 种生产因素,已是数字经济倒退的重要因素。但相干考察结果显示,企业经营中仅 56% 的数据被存储,仅 32% 的数据被利用。为应答呈指数级增长的数据资产,开掘海量数据价值,政企客户采纳大规模数据底座的需要越来越迫切。
家喻户晓,企业晚期业务较小,各业务从数据集成到数据利用,零碎自建,烟囱林立,随同业务飞速发展,数据不对立、数据交融剖析难、开发保护老本低等问题日益凸显,烟囱式的数据体系演进达到瓶颈。
为冲破以上瓶颈,开掘数据价值,驱动业务增长,传统烟囱式数据体系向对立数据湖架构演进,实现统一的数据清洁,做到同名同义,对立数据规范;通过一套技术架构缩小保护老本;采纳乐高积木式的指标体系,晋升开发效率;拉通数据实现跨域交融剖析,带来更多的业务翻新。
立足于久远,大集群的数据湖架构不仅需满足当下,更应具备可继续演进的能力。
从技术角度来看,大数据开源、凋谢技术仍在蓬勃发展,以前,驾驭大数据“三驾马车”可转遍大数据的池塘,现如今,大数据技术已倒退成一片陆地,社区已具备 100+ 开源我的项目,大数据技术创新进入深水区。当初大数据不仅限于 Hadoop 生态,已是多种支流数据处理技术的汇合,在不同场景有着丰盛的组件进行撑持。华为云大数据技术与世界同步,踊跃拥抱开源,吸取寰球顶尖大数据实践经验。
从业务角度来看,大数据平台承载了海量数据各业务剖析场景,其中更波及多个要害业务,如运营商的对内支出稽核、对外广告精准投放,金融畛域的反欺诈、精准营销等场景,服务连续性要求高,7*24 小时不中断;如何让大数据平台软件放弃最新保本,实现最优的平台参数,达到最快的问题解决速度?这些都对平台运维部门提出了极高的要求。
为了放弃业务的连续性和技术引领,一个超大规模、高效率、可继续倒退的数据底座显得尤为重要,而不中断业务的滚动降级能力则成为其中的必备能力。
滚动降级实现架构平滑演进,业务无中断
华为云 FusionInsight MRS 云原生数据湖提供超大规模集群,反对单集群 2 万 + 节点规模,并可联邦有限扩容,同时,从 500+ 节点集群的标配开始,华为云 FusionInsight MRS 云原生数据湖已提供滚动降级能力,截止目前降级成功率为 100%。
当然,滚动降级的胜利并不是欲速不达的,在其降级过程中也将面临如下挑战:
- 无处不在的兼容性:HDFS 作为一个分布式架构组件,波及的跨过程的接口泛滥,在中间状态,波及到新老版本交互的场景泛滥,每一种组合都存在兼容性问题;
- 可靠性: 集群规模达到肯定数量后,集群降级历时需数天,降级过程中须要应答各种突发事件,例如硬件的磁盘故障、网络拥塞等各种异样场景,面临这些挑战须要确保降级进度不受影响;
- 业务无中断: 大数据平台承载企业多场景利用,降级过程中,要害业务不容许中断。
为了保障大集群降级过程的平滑,华为云 FusionInsight MRS 云原生数据湖团队提供了降级治理可视化服务工具,能够端到端分步骤的实现滚动降级,实现降级过程中的可视化管制和治理,并应答上述挑战,次要做了如下解决:
- 在接口中减少版本号,新版本客户端带上版本号标识;服务端提供两种 RPC 实现入口,在入口处进行音讯格局不兼容的预处理,解决接口兼容性问题;面对社区大版本变更导致的不兼容问题,通过多版本并存的形式,解决滚动降级对业务的影响;
- 为疾速解决降级过程中呈现的硬件故障,提供了故障节点隔离能力,在故障产生时,能够跳过该节点的降级动作,使得故障解决和降级能够有序进行;
- 为升高在降级过程中对要害工作 SLA 的影响,提供了滚动降级暂停的能力,要害作业或者作业顶峰时段,无论是同一批次内还是多批次间,都可暂停降级动作,保障要害工作安稳执行。
滚动降级不仅是一个降级动作,更是一个系统工程,华为云 FusionInsight MRS 云原生数据湖从兼容性、可靠性、工具自动化、保障团队等多方面动手,重视细节,通过滚动降级助力政企客户平台架构平滑演进。
工商银行实现首个金融行业 1000+ 大集群滚动降级胜利
工行大数据平台的 Hadoop 批量集群已超过 1000 节点,日均解决作业 10 万 +,数据存储数十 PB,承载了全行重点批量作业,其中包含反欺诈、精准营销等多个重要业务场景,服务连续性需要较高。而大数据技术迭代快,传统降级形式需断电、重启等操作,降级操作简单,影响现网业务运行,且大集群降级耗时长,突发故障易中断降级动作。
大数据技术疾速倒退,为满足业务变动倒退需要,工行采纳了华为云 FusionInsight MRS 滚动降级计划,借助于大数据外围组件的高可用机制,MRS 依照依赖档次,多层次并行,在不影响集群整体业务的状况下,一次降级 / 重启大量节点,根据组件和实例的依赖关系,主动编排降级批次。降级过程中,隔离故障节点,待降级实现后,再进行故障解决。循环滚动,直至集群所有节点降级到新版本。
通过华为云 FusionInsight 滚动降级能力,实现大集群分批次滚动降级,业务 0 中断;故障节点隔离性能确保降级动作的稳固运行,实现 7 *24 小时不间断服务;1000+ 精细化运维指标及可视化操作简化运维,实现一个架构继续演进。
结语
滚动降级作为大集群数据底座的必备能力,完满解决了传统大数据平台操作繁琐、业务停机、降级老本低等问题,实现一个架构的继续演进,业务无中断。同时,华为云 FusionInsight MRS 云原生数据湖还将继续翻新,做大数字世界黑土地,携手 800+ISV 为客户提供继续演进的湖仓一体解决方案,能够在一个架构上实现离线数据湖、实时数据湖、逻辑数据湖,在千行百业构筑“一企一湖,一城一湖”。
点击关注,第一工夫理解华为云陈腐技术~