关于大数据:存算分离实践JuiceFS-在中国电信日均-PB-级数据场景的应用
01- 大数据经营的挑战 & 降级思考大数据经营面临的挑战中国电信大数据集群每日数据量宏大,单个业务单日量级可达到 PB 级别,且存在大量过期数据(冷数据)、冗余数据,存储压力大;每个省公司都有本人的集群,以及多个收集全国各省级业务信息的团体大数据集群,导致数据扩散冗余,省集群与团体集群数据无奈共享,跨地区工作提早高。 电信早在 2012 年就开始创立各种集群,外部集群由各个厂商或其余外部团队部署,承载的业务由各个厂商经营,运维团队也是由各个厂商提供,因而集群波及的版本十分多,包含 Apache、CDH、HDP 等多个版本。随着集群规模的一直收缩,运维压力越来越大,定位和修复问题都须要依附厂商,这并不是一种可继续倒退的路线。 为解决现网痛点,强化集群平安,聚焦降本增效,满足内外部撑持需要,2021 年,中国电信组建了 PaaS 自研团队。在两年中,PaaS 团队针对现有的集群进行了优化,保障上万台机器的现有集群安稳运行。 在 2022 年初,PaaS 团队开始自主研发 TDP(TelecomDataPlatform)大数据平台,逐渐替换现有集群,推动产品化。2022 年上半年,通过 Hadoop 2 版本的 TDP 底座部署了两大新集群,开始用于生产业务。2022 年下半年研发了 Hadoop 3 版本的 TDP 底座,开始面对如何应用自研底座降级现网大量的 Hadoop 2 集群的问题。 集群降级思考在降级集群的过程中,心愿新的集群设计能够解决现有痛点,具备业界先进的个性,并且为后续的技术迭代做好前置筹备。 以下是咱们在集群降级的过程中心愿能够解决的问题: 拆分为小集群咱们打算将大集群拆分为小集群,起因如下: 从机器资源层面来说,无奈同时应用几千台机器进行原有业务的迁徙。此外,针对局部十分重要、对 SLA 的保障要求很高的业务,无奈在生产环境间接从 Hadoop 2 原地降级到 Hadoop 3。 每个集群中都有许多不同的业务,将大集群拆分为小集群后能够依照业务进行划分,尽量减少它们之间的影响,升高业务迁徙的压力和危险。拆分成小集群后也能够改善一些工作可能引起的整个集群不稳固的问题,更好地管制稳定性。 举个例子:有些机器学习的工作,并没有应用 Sark、Machine Learning 这样的形式去编写,而是间接在本人的程序中调用 Python 库。这个操作没有限度线程的应用。这样即便工作只申请了 2 核 10G 的内存,实际上也可能把这台机器的负载打到 100 以上。因而,拆分成小集群后,能够缩小工作之间的相互影响,尤其是当平台上须要执行十分重要的工作时,在小节点的状况下,运维工作会绝对容易。 此外,拆分集群还能够防止 Namenode 和 Hive 元数据的收缩,升高整体的运维压力。因而,在业务容许的状况下,打算采纳大集群拆分成小集群的形式进行降级。 降级过程尽量平滑拆分小集群的过程中波及到数据和计算两个维度,数据的迁徙须要大量工夫,如果业务简单,计算也可能须要破费很长时间。因而,须要想方法将数据和计算的迁徙离开,尽量扩充这两个集群之间的并行工夫。 多集群之间的数据互访问题当大集群拆分成小集群之后,须要思考多个集群之间如何做数据互访。同时,在外部零碎中有上万台机器和海量的数据,始终面临着不同类型的数据搬迁、冗余以及冷热数据的问题。 大数据、AI 联合需要咱们的 PaaS 平台正在逐渐承接各种 AI 需要,其中最大的需要之一是非结构化数据的存储。将这部分需要与现有的结构化和半结构化数据存储集成在一起,这也是业界的一个前沿方向。 ...