摘要:2021 年 4 月 21 日,中国太平洋保险团体联结华为云实现了寰球首例大数据集群跨多版本的大数据集群滚动降级。
本文分享自华为云社区《华为云 FusionInsight 助力太保跨多版本升级业务 0 中断》,作者:沙漏。
2021 年 4 月 21 日,中国太平洋保险团体联结华为云实现了寰球首例大数据集群跨多版本的大数据集群滚动降级,冲破传统计划需离线停机屡次降级模式,一次性将外围现网集群版本由 FusionInsight HD C70 降级到 FusionInsight MRS 8.0.2,横跨 C80、6.5.1 两个版本,同时实现了大数据集群从物理机向云服务的模式转变,实现该案例在金融同业首例冲破,建立同业新标杆。通过为期两周的降级施行过程操作,实现太保下层业务无感的平滑滚动降级,全程集群作业无中断、性能无影响。本次跨版本滚动降级的胜利对金融科技领域意义重大,标记着中国太平洋保险为金融同业建立了大数据服务跨多版本升级、业务连续性和可继续演进的新建设标杆。
一、我的项目背景
中国太平洋保险团体从 2017 年抉择华为云 FusionInsight 构建保险大数据平台。随着太保与华为云单干的继续深刻,其外部次要业务零碎都已应用华为云大数据平台。然而晚期各业务零碎都建设了独立的大数据集群,数据无奈互通,存在数据冗余,且多集群造成保护难问题。截止降级前已建设 18 套大数据集群,以 FusionInsight HD C70 版本为主。
随着太保业务的高速倒退,对大数据平台的对立治理、数据共享、降级演进有了新的诉求,心愿将现网 18 套生产集群进行对立降级和归并,同时面向未来提供大数据集群可继续演进的能力。
为此,太保联结华为云,决定将现有 18 套大数据集群,由 FusionInsight HD C70 版本对立降级到 MRS8.0,降级的次要指标:
- 通过对原集群降级归并,对立为一套大集群,通过资源整合,进步资源利用率;
- 对立到 MRS 平台版本资源监控更欠缺,定位问题更精确;
- 降级到云平台,能够按需灵便调配资源,实现可演进的湖仓一体架构,扩大其余高阶服务。
二、我的项目内容
2.1 技术挑战
太保大数据集群按需部署了 HBase、Hive、HDFS、ZooKeeper、YARN、Oozie、Hue、Spark 等各类组件。
此外,集群中每日有上万作业的执行,也为无感知的滚动降级加大了难度。次要挑战有以下几点:
- Hadoop 组件内核由 X 到 3.X 的跨大版本升级中,社区仅提供了 HDFS 的滚动降级能力,YARN 的社区原生指标版本因为与原版本协定不同,无奈反对滚动降级;
- 社区原生版本的 HDFS 在降级过程中,删除的文件并不会物理删除,而是挪动到 trash 目录,这一解决对大容量集群的滚动降级造成存储资源压力,妨碍了残余信息爱护,如果不能及时清理会导致爆盘问题;
- Hive 组件内核由 X 到 3.X 的跨大版本升级中,因为元数据前后格局不兼容、API 前后版本有变动、局部语法不兼容等问题,导致社区原生版本无奈反对滚动降级;
- HBase 组件内核由 X 到 2.X 的跨大版本升级中,API 前后版本存在较大的变动,导致社区原生版本无奈反对滚动降级;
- 每日上万任务量,滚动降级期间如何保障安稳运行,尤其是损益剖析、减值测算等外围场景;
- 600+ 节点的大数据集群环境下,须要确保在降级过程中突发状况,疾速应答硬件(磁盘、内存等)故障,不影响降级;
- 70+ 业务零碎,数百个业务在此集群上运行,滚动降级过程中须要保障每一个业务运行不受损。
2.2 技术保障
滚动降级就是借助于 FusionInsight MRS 的高可用机制、主备模式、多正本机制、机架策略等在不影响集群整体业务的状况下,一次降级 / 重启局部节点。循环滚动,直至集群所有节点降级到新版本。
下图为已 HDFS 组件滚动降级示例:
为应答上述技术挑战我的项目组建了滚动降级小组,由社区 PMC、社区 Commiter、版本 Developer 形成,次要执行了以下技术保障:
- 依靠协定同步、元数据映射转换、API 封装转换等形式,解决了社区协定不同、元数据格式不同、API 变动等导致的兼容性问题,保障了滚动降级过程中低版本的组件客户端的失常应用;
- 针对 HDFS 社区新版本升级过程中的文件未删除问题,额定实现了 trash 目录主动清理,将逻辑删除转换为物理删除,并增补了旧版本定期清理 trash 目录的工具。确保了基础设施资源利用的有效性,升高存储老本;
- 针对组件降级前后性能情况、降级时长、降级过程中和预先可能呈现的瓶颈点等问题,做了相应架构调整及优化,助力实现滚动降级的全局可控、全程无感、全面无误;
- 运维治理方面,项目组针对性的研发了降级治理服务界面,能够端到端、分步骤地实现滚动降级,便于查看滚动降级状态,实现组件级管制。为了升高在降级过程中对要害工作服务连续性的影响,我的项目实现了按降级批次暂停的性能,有助于在要害作业或者作业顶峰时段,通过暂停降级进行危险躲避,确保业务无影响。此外,为防止各种突发事件中断降级过程,我的项目实现了故障节点隔离能力,在故障产生时,能够跳过对应节点的降级动作,保障了故障解决和降级的同步进行。
2.3 组织保障
我的项目启动后,成立了以太保相干领导为项目经理,以华为交付和研发、太保的研发和运维为成员的联结项目组。本次降级面向的利用部门多达 20+,平台波及业务数量多且简单。为保障滚动降级胜利且整个过程中业务要做到 0 中断,在降级前、中、后的 6 个月里由华为方主导,客户各个业务部门紧密配合,项目组制订了周密的组织保障制度。
太保降级我的项目组织保障
- 降级前筹备阶段:在项目组整体协调和华为的研发撑持下,实现了 70+ 利用代码革新及验证,并输入测试报告;为充沛辨认危险,华为被动提供测试环境硬件资源,项目组联结各利用部门,进行了 3 次降级演练的联结测试;为达成降级前置条件,华为专家调研领导,无效的进行了集群小文件合并、客户端整改、集群屡次巡检、降级计划的重复评审改良等降级前筹备工作;
- 降级过程保障:在降级过程的两周期间,华为安顿研发、计划等专家现场保障。华为协同太保联结项目组制订了 24 小时排班保障、联结项目组和利用部门间的信息反馈及沟通(滚动降级中每组件降级完都需业务验证及确认)、降级操作的联结项目组受权、降级操作的录屏监控等制度;
- 降级后察看:滚动降级实现后,联结项目组协调各利用部门进行利用业务验证,且已全副输入业务运行失常报告。后华为项目组后续继续察看两周工夫,确认平台及利用运行失常后进行了本次降级提交。
三、总结与瞻望
太平洋保险联结华为公司实现的本次金融业首家大数据集群跨多版本的滚动降级,实现了下层业务无感知、全程集群作业无中断、性能无影响,切实保障了客户的外围利益,也建立了金融同业新标杆。
随着数字化技术的一直迭代降级,将改变传统保险经营模式,将来次要会呈现出以下三个方向的改革:
- 实现从大数到小数,增强危险数字刻画,从过来的大数概率到小数更加敏锐的感知,将从根本上改变传统的经营模式;
- 从实体到虚构,数据已是重要的生产资料,通过海量数据辨认和评估新型资产的危险,将成为保险业的外围能力;
- 从保险到治理,数字化将晋升保险公司本身风险管理能力,将更多的参加到国家、城市的危险治理当中,逐渐从损失弥补到风险管理和治理。
面向未来,太平洋保险将携手华为继续翻新,不断完善危险生态,贯彻 ” 以客户需要为导向 ” 的策略,建设 ” 专一保险主业,价值持续增长,具备国内竞争力的一流保险金融服务团体 ”。
点击关注,第一工夫理解华为云陈腐技术~