关于大数据:大数据下单集群如何做到2万规模

摘要：用户的多场景交融剖析的诉求不容许将集群进行拆分，不容许将数据分析业务割裂而导致业务模块之间失去关联，故华为开启了单集群2万节点规模摸索。

7月9日，中国通信院在大数据产业峰会·成绩发布会上为通过大数据产品能力评测的产品颁发证书，华为云FusionInsight MRS以测试项全副满分的问题顺利通过评估，并胜利冲破单集群2万节点的超大规模，建立行业新标杆。

为了应答5G、IoT高速倒退，大数据技术在分布式批处理根底能力上进一步增强。FusionInsight MRS作为华为基于Hadoop生态的大数据产品，始终致力于超大规模单集群承载能力的摸索和实际，目标是当数据指数级增长时，华为自研的大数据产品能平滑的满足用户需要。随着社会数字化转型的减速，数据量激增超出了预期，与此同时，用户的多场景交融剖析的诉求不容许将集群进行拆分，不容许将数据分析业务割裂而导致业务模块之间失去关联。因而华为大数据研发团队开启了单集群2万节点规模摸索。

超大规模集群的技术痛点

对于一个分布式系统来说，当集群规模由小变大当前，简略的问题都会变得异样简单。随着节点的增多，简略的心跳机制，也会让Master节点不堪重负。2W节点的FusionInsight MRS集群面临着诸多挑战：

1.如何实现面向多租户场景的批、流、交互式混合负载的高效调度，集群规模与解决能力的线性扩大、引擎之间资源波峰波谷错峰复用

数据的集中存储能够通过超大集群来无效解决，但数据如果仅仅是存着，不会产生价值，只有进行大量的剖析能力从数据中找到价值。通过跑批工作，生成固定的报表是大数据平台的惯例用法，数百P的数据如果仅仅用来跑批，无论是对数据还是对海量的计算资源都是一种节约；工夫就是金钱，工夫就是效率，数据T+0入湖，实时更新入湖，就是一直减速数据价值变现，超大规模集群应该能实现数据的T+0实时数据入湖，全量数据的批量剖析，数据分析师的交互式摸索剖析，确保平台的价值最大化。如在一个大集群上，同时疾速的实现数据T+0的实时入湖，批剖析，还能面向大量分析师的即席查问要求，做到计算资源的隔离和共享，是调度零碎须要解决的一个重要问题。

2.如何面对存储、计算、治理方面的新挑战，冲破多个组件的瓶颈限度

计算方面：随着集群规模变大，YARN的ResourceManager可调度的资源变得更多，能够并行的工作更多，这对核心调度过程提出了更高的要求，如果调度速度跟不上，作业工作会在集群入口处沉积，而集群的计算资源无奈无效利用。

存储方面：随着存储容量的减少，HDFS在大规模集群上须要治理的文件对象增多，HDFS NameNode元数据量也会相应减少。社区尽管提供了NameNode联邦机制，但须要应用层感知不同NameNode的命名空间，应用和保护都会变得异样简单。除此之外，还很容易呈现各命名空间之间映射的数据量不平衡的问题。同时，随着数据量的减少，Hive元数据中的数据量急剧增长，对元数据库也会造成极大的压力，极易呈现所有的SQL语句都沉积在元数据查问环节造成阻塞。

运维治理方面：除了计算和存储面临的瓶颈问题，平台的运维能力，也会随着规模变大，遇到瓶颈问题。如零碎的监控零碎，当节点从5000变为20000的时候，每秒解决的监控指标会从每秒60万减少到200多万条。

3.如何晋升大规模集群的可靠性和运维能力，确保集群不停服

平台的可靠性始终是平台运维部门最关注的点，当集群承当了全团体的全量数据对立加工剖析之后，就意味着集群必须24小时永远在线，然而技术会一直倒退[Z(4] ，平台必须要确保零碎能够反对后续的更新与降级，以确保集群可面相将来继续演进，倒退。

另外，随着集群规模的减少，机房空间有余的问题将凸显进去。如果简略地将一个大集群跨机房部署，在带宽负载和可靠性上，都会面临比拟大的挑战。如何做到机房级的可靠性，对一个超大规模的集群也至关重要。

超大规模集群优化的实际过程

针对以上各方面的挑战，FusionInsight MRS在3.0版本进行了系统性的优化。如果说当年从500到5000节点，次要是在代码级的优化，那么从5000到2W，仅凭代码级的优化曾经无奈达成，很多问题须要架构级的优化能力解决。

1.自研Superior超级调度器，解决超大规模调度效率和面向多租户场景的混合负载的问题

FusionInsight引入数据虚拟化引擎，在对立的大集群上提供了交互式查问的能力,解决了面向分析师的查问效率问题。为了撑持在超大集群上同时反对多样化的负载，在自研的Superior调度器上，实现了为租户同时调配保留资源与共享资源，租户独享保留资源的权利同时还满足了资源共享的需要。对于更重要的业务，则能够通过绑定固定资源池的形式，将一批固定的机器调配给某个租户，做到物理上的隔离。通过计算引擎和调度引擎的协同，真正做到了数据不出湖，在一个大平台上的业务闭环。

在多租户能力方面，随着租户越来越多，租户间的资源隔离成为用户的外围诉求。Hadoop社区提供了基于队列的计算资源隔离能力，基于Quota的存储资源阈值限度能力，然而在工作或者读写操作被调配到同一台主机上时，仍然会互相争抢资源。针对此场景，在MRS产品上提供了以下几种形式进行更加细粒度的隔离：

标签存储：给承载存储资源的DataNode打标签，在文件写入时指定标签，实现了最大水平的存储资源隔离。该个性能够有效应用于冷热数据存储和硬件资源异构的场景。
多服务：在同一个集群中的不同主机资源上，部署多个同种服务，不同的利用可依据需要，应用各自的服务资源，并且相互之间互不烦扰。
多实例：在同一个集群中的同一台主机资源上，独立部署同种服务的多个实例资源，以达到主机资源的充分利用，不与其它服务实例共享。例如：HBase多实例、Elasticsearch多实例、Redis多实例等。

2.技术攻坚，冲破计算、存储、治理等各方面的瓶颈

在计算工作的调度效率方面，通过专利调度算法进行优化，将一维的调度转换为二维调度，实现了绝对开源调度器在效率上数倍晋升。在理论的大规模集群生产环境下，针对自研Superior和开源Capacity性能比照：

同步调度状况下，Superior比Capacity快30倍
异步调度状况下，Superior比Capacity快2倍

同时通过对2W集群的深度优化，FusionInsight MRS 3.0版本的Superior能够达到调度35w/s个Container的调度速率，齐全超出了大规模集群在调度速率上的用户预期，并且集群资源利用率达到98%以上，超过开源Capacity的能力近一倍，为大规模集群的安稳商用奠定了松软的根底。

下图是别离在Superior和Capacity下对于“资源利用率”的监控视图：能够看出Superior近乎100%的资源使用率，而Capacity下资源无奈失去充分利用。

Superior资源利用率

Capacity资源利用率

在存储方面，Hadoop社区为解决HDFS在文件对象治理上的瓶颈，推出了联邦解决方案。然而大量不同命名空间的引入，间接导致下层业务在开发、治理、保护上复杂度回升。为解决这一问题，社区又推出了Router Based Federation个性，因为在NameNode之上加了一层Router进行交互，导致性能降落。

针对以上问题，FusionInsight MRS对产品计划做了如下优化：

通过在大集群生产环境中辨认要害瓶颈，FusionInsight MRS利用合并单次读写流程中的交互次数、应用改进的数据通信压缩算法等技术计划，将性能降落管制在4%以内。
为解决不同命名空间之间数据不平衡的问题，FusionInsight MRS利用DataMovementTool主动平衡不同命名空间之间的数据，大大降低了集群保护老本。

随着数据量的减少，Hive的元数据在面对海量表/分区的时候，也面临着十分大的瓶颈。尽管Hive的社区推出了Metastore Cache的解决方案，但并未解决多个Metastore之间的缓存一致性的问题，导致此计划无奈在大规模的集群上规模商用。FusionInsight MRS通过引入分布式缓存Redis作为代替计划，联合分布式锁、缓存黑白名单机制、缓存生命周期治理等技术手段加强了Metastore Cache的可用性。

在运维治理面方面，当集群规模增长到2W节点后，运维压力陡然减少：

零碎须要采集的监控指标数量也从原来的每秒采集60W+条数据，增长到200W+条
告警并发解决从原来的200条/s增长到1000条/s
配置管理的总条目数从50万增长到200多万

FusionInsight MRS原有架构中主备模式的监控、告警、配置、元数据存储模块，因为数据量的暴涨受到了微小的性能挑战，为解决这一问题，新版本利用Flink、HBase、Hadoop、Elasticsearch等成熟的分布式组件技术，将原来的粗放主从模式调整成了可弹性伸缩的分布式模式，胜利解决了运维治理面临的难题，并且为后续运维数据的二次价值开掘打下了根底。

3.通过滚动降级/补丁、工作级“断点续传”、跨AZ高可用等部署能力，保障平台继续稳固运行

滚动降级/补丁：FusionInsight从2.7版本开始反对滚动降级性能，实现了平台降级/补丁等操作的业务无感知。但随着工夫的倒退，社区能力却不反对滚动降级，如Hadoop2到Hadoop3的大版本升级这意味着很多超大集群不得不始终停留在老版本而无奈降级，当然这是业务无奈承受的。FusionInsight MRS通过对社区接口的兼容性解决，胜利实现了Hadoop大版本间的滚动升极，并在2020年Q2实现了1W+节点集群规模的滚动降级。在FusionInsight的客户中，滚动升级成了500+规模集群的必备能力。

工作级“断点续传”：在大规模集群上，继续运行着一些超大工作，动辄蕴含几十万个Container，这类工作往往运行工夫长，两头一旦呈现个别故障，有可能导致工作需从新执行，造成大量的计算资源白白浪费。

FusionInsight MRS提供了多种机制保障工作的牢靠运行，例如：

存储上提供感知AZ的文件存储策略，将文件本身及其正本别离搁置在不同的AZ上，用户发动读写操作时，优先在本AZ内寻找资源，只有在AZ故障的极其场景下，才会呈现跨AZ的网络读写流量。
计算上提供感知AZ的任务调度机制，将用户提交的工作充沛调配在同一个AZ内实现，防止同一个工作的不同计算单元之间耗费网络资源。

通过以上的存储块搁置策略和计算工作的本地化调度，还可实现单集群跨AZ的高可用，单AZ故障的时候，外围数据和计算工作不受影响。

【结束语】

FusionInsight MRS 单集群21000节点在2020年7月获信通院颁发大数据产品能力评测证书，成为业界第一个单集群冲破2W节点的商用大数据平台，建立行业新标杆。将来，FusionInsight MRS将继续深刻大数据技术的摸索和钻研，在大集群技术的根底上进一步实现存算拆散，通过对立的元数据和平安治理，实现数算拆散（数据+元数据和计算拆散），从而实现数据在更大范畴的共享，进而实现一份数据，多个计算集群的灵便部署和弹性伸缩，通过平滑扩大的架构，可反对10万级，甚至百万级别的集群规模，一直适应企业大数据利用多场景交融的外围诉求。

将来架构演进方向

十多年来FusionInsight 致力于为寰球60+国家地区、3000+政企客户构建企业级智能数据湖，联合平台+生态策略，与800+商业合作伙伴，广泛应用于金融、运营商、政府、能源、医疗、制作、交通等多个行业，在政企数字化转型中，开释数据价值，助力政企客户业务高速增长。MRS源于凋谢的大数据生态，叠加了企业级的要害能力，既放弃了开放性，又给客户提供了企业级交融大数据平台，帮忙客户实现T+0数据入湖，一站式交融剖析，让数据“慧”谈话。

点击关注，第一工夫理解华为云陈腐技术~

关于大数据:大数据下单集群如何做到2万规模

超大规模集群的技术痛点

超大规模集群优化的实际过程

【结束语】

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于大数据:大数据下单集群如何做到2万规模

超大规模集群的技术痛点

超大规模集群优化的实际过程

【结束语】

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复