关于大数据:解读8大场景下Kunpeng-BoostKit-使能套件的最佳能力和实践

摘要：本次鲲鹏 BoostKit 训练营为开发者介绍如何基于鲲鹏 BoostKit 使能套件实现利用性能的减速，并重点分析性能优化技术和要害能力。

本文分享自华为云社区《【云驻共创】“大鹏一日同风起”Kunpeng BoostKit 使能套件如何实现大数据场景倍级性能晋升？》，原文作者：白鹿第一帅。

前言

在数据和经济时代，业务和数据的多样性须要新的计算架构，海量的数据增长也带来了更高的计算需要。那么在这个过程中，鲲鹏计算产业也正在成为更多计算场景的新一代 IP 基座。基于华为鲲鹏处理器构建的鲲鹏全栈 IT 技术施行设施行业利用以及服务，致力于为智能世界继续提供咱们的先进算力反对，使得各个行业能够实现数字化转型。应用软件的迁徙与优化始终是鲲鹏软件生态的难点和要害。本次鲲鹏 BoostKit 训练营为开发者介绍如何基于鲲鹏 BoostKit 使能套件实现利用性能的减速，并重点分析性能优化技术和要害能力。

一、开源大数据与鲲鹏多核构造渊源

1.1、海量数据处理的难题

随着科技的倒退，越来越多的行业须要采集更多的数据，如何对海量数据进行剖析并得出咱们想要的后果就成为了咱们所面临的难题，而大数据技术的迅速倒退使得这个问题迎刃而解。

1.2、大数据并行计算特点人造匹配鲲鹏多核架构

海量数据须要更高的并发度来减速数据处理，在数据集十分大的状况下，如果咱们跑在单核（或者是程序化）的执行场景下，可能执行过程无奈进行或者是效率极其低下，这是咱们无奈承受的，所以海量的数据须要更高的并发度来解决，那么鲲鹏多核计算的特点就能够完满匹配这个需要，减速大数据的计算性能，晋升大数据工作的并发度。

咱们以 MapReduce 模型为例进行解决和计算，如下图所示，咱们所采集的源数据是一段英文，咱们须要计算这段话中每一个单词所呈现的次数。

运行过程：首先咱们对源数据进行拆分，而后 Map 映射到每一个节点上进行运算，之后进行 Sort 排序，Merge 合并，最初进行后果汇总 Reduce 以造成最终的后果。

能够看到，咱们将大量的计算散发到各个节点之上，这就是分布式计算，也是咱们所谓的“并发度”的概念。如果咱们的并发度提高了，实践上来讲，咱们整个模型的执行工夫也会相应缩短。

二、开源大数据整体与组件介绍

下面咱们介绍了开源大数据的概念以及相应的华为鲲鹏多核计算的特点，上面介绍咱们在大数据开发中常常会应用到的一些组件。

2.1、大数据组件：Hadoop-HDFS 模块

HDFS 是 Hadoop 生态的三个外围模块组成之一，负责分布式存储。具体构造如下图所示：

HDFS：是一种分布式存储系统，采纳 Master 和 Slave 的主从构造，次要由 NameNode 和 DataNode 组成。HDFS 会将文件按固定大小切成若干块，分布式存储在所有 DataNode 中，每个文件能够有多个正本，默认正本数为 3。
NameNode：Master 节点，负责源数据的治理，解决客户端申请。
DataNode：Slave 节点，负责数据的存储和读写操作。

应用流程：用户如果想要读取存储在 HDFS 中的数据，须要先找到 NameNode，通过 NameNode 来得悉咱们的数据寄存在哪个 DataNode 之上，当 NameNode 找到具体的数据之后，将数据返回给用户。

2.2、大数据组件：Hadoop-Yarn 模块

Yarn 是 Hadoop 生态的三个外围模块组成之一，负责资源分配和治理。具体构造如下图所示：

Yarn：是一种分布式资源调度框架，采纳 Master 和 Slave 的主从构造，次要由主节点 ResourceManager、ApplicationMaster 和从节点 NodeManager 组成，负责整个集群的资源管理和调度。
ResourceManager：是一个全局的资源管理器，负责整个集群的资源管理和调配。
NodeManager：运行在 Slave 节点，负责该节点的资源管理和应用。
ApplicationMaster：当用户提交应用程序时启动，负责向 ResourceManager 申请资源和应用程序的治理，与 NodeManager 进行互动。用户在应用的状况下能够通过 ApplicationMaster 得悉当前任务的进度、曾经执行到哪些 Job。
Container：Yarn 的资源形象，是执行具体利用的根本单位，任何一个 Job 或应用程序必须运行在一个或多个 Container 中。

2.3、大数据组件：Hadoop-MapReduce 模块

MapReduce 是 Hadoop 生态的三个外围模块组成之一，负责分布式计算。具体构造如下图所示：

MapReduce：是一种分布式计算框架，次要由 Map 和 Reduce 两个阶段组成。反对将一个计算工作划分为多个子工作，扩散到各集群节点并行计算。
Map 阶段：将初始数据分成多份，由多个 Map 工作并行处理。
Reduce 阶段：收集多个 Map 工作的输入后果并进行合并，最终造成一个文件作为 Reduce 阶段的后果。

2.4、大数据组件：Spark 平台

Apache Spark 是用于大规模数据处理的对立剖析引擎，具备可伸缩性、基于内存计算等特点，曾经成为轻量级大数据疾速解决的对立平台，各种不同的利用，如实时信息流解决、机器学习、交互式查问等，都能够通过 Spark 建设在不同的存储和运行零碎上。具体构造如下图所示：

Apache Spark 外围：Spark Core 是 Spark 平台的根底通用执行引擎，其所有其余性能都是基于该平台执行的。它提供了内存计算和内部存储系统中的参考数据集。
Spark SQL：Spark SQL 是 Spark Core 之上的一个组件，它引入了一种名为 SchemaRDD 的新数据抽象，他提供了对结构化和半结构化数据的反对。
Spark Streaming：Spark Streaming 利用 Spark Core 的疾速调度性能来执行流式剖析。它采纳小批量采集数据，并对这些小批量数据执行 RDD（弹性分布式数据集）转换。
MLlib：MLlib 是 Spark 下面的分布式机器学习框架，因为它是基于分布式内存的 Spark 体系结构。
Graphx：Graphx 是 Spark 顶部的分布式图形处理框架。它提供了一个用于表白图形计算的 API，能够应用 Pregel 形象 API 对用户定义的图形进行建模。它还为此形象提供了优化的运行时。

三、鲲鹏 BoostKit 使能套件介绍

3.1、鲲鹏 BoostKit 是什么？

BoostKit 是一个利用使能套件，并不只是由一个软件包形成，而是由很多软件包组成的。

BoostKit 是部署在鲲鹏整机（服务器）环境之上，往上搭建的一个全栈优化的使能套件。具体构造如下图所示：

鲲鹏利用使能套件 BoostKit，开释倍级性能劣势，提供八大场景化利用使能套件：大数据、分布式存储、数据库、虚拟化、ARM 原生、Web/CDN、NFV 和 HPC。在接下来的过程中，咱们将其分为三个局部顺次介绍。

3.2、开源使能：开源软件可用、好用

华为：奉献开源、主导开源，使能支流开源软件反对鲲鹏高性能。
搭档：从开源社区、鲲鹏社区获取高性能开源组件，间接编译/部署。

咱们以 Hadoop 为例，首先须要让 Hadoop 运行在鲲鹏服务器上，然而这远远不够，还须要依据需要开发相干个性，以促使 Hadoop 在鲲鹏之上能够运行得更加完满、便捷，同时咱们将研发的产品新个性合入、奉献到开源社区。

3.3、根底减速：超过业界程度的利用性能

这一块之所以被称为根底，是因为很多利用都会应用到该减速包，比方：NUMA 优化、KAE 减速库、IO 智能预取等。

华为：提供根底性能优化、根底减速库和减速算法等根底减速软件包和文档，并对如何应用作出领导。
搭档：从鲲鹏社区获取根底减速软件包，在鲲鹏翻新核心领导下进行编译、部署和性能优化。

咱们以 KAE 减速库为例，在应用过程中所应用到的如压缩、加解密等相干性能，咱们会减速这个性能，如果咱们的下层利用有应用到压缩、加解密等相干性能就都会有大幅的性能晋升。

3.4、利用减速：极致事务倍级利用性能

华为：提供利用翻新减速组件、算法翻新组件等利用减速软件包和文档。
搭档：搭档与华为发展联结方案设计、开发和商业实际。单干形式的变动随减速性能而变。

四、BoostKit 在开源使能上的后果

BoostKit 在开源社区中做了大量的投入，次要针对如下两个方面，全面反对开源大数据组件，并实现了 ARM CI 在社区版本上的运行。

4.1、全面反对开源大数据

反对开源 Apache 大数据组件。
反对开源 HDP 大数据组件及治理组件 Ambari。
反对开源 CDH 大数据组件（注：CDH Manager 治理组件是闭源版本，以后不反对）。

4.2、开源社区接收 ARM 生态

Hadoop、Hive、Hbase、Spark 和 Flink、ElasticSearch、Kudu 等外围组件的开源社区反对 ARM（注：Hadoop、ElasticSearch 开源社区曾经提供官网版本的 ARM 软件包）。推动了 ARM 开源软件生态的倒退。

五、鲲鹏 BoostKit 如何应答大数据要害挑战？

聚焦大数据要害挑战，对于存在的痛点给出解决方案，让数据处理更快、更简略。

5.1、遇到的问题

多样化查问无奈对立，效率低。Spark SQL、Hive 等查问形式的不对立，导致查问的效率升高。
IO 密集型组件性能无奈满足要求。
磁盘 IO 存在瓶颈，HDFS 性能晋升艰难。
在数据采集过程中，因为数据是多种多样的，多样化数据格式，导致跨数据源读取数据难。
数据非共享，跨数据中心取数难。在数据读取的过程中，数据多存储在不同的数据中心，无奈实现共享，跨数据中心读取数据就是一个难题。

5.2、如何应答要害挑战？

针对问题 1、4、5。采纳跨源跨域查问减速。采纳 openLooKeng 虚拟化引擎对立数据入口，反对跨源、跨域剖析，查问性能倍级晋升。
针对问题 2。采纳 Spark 性能减速。原生机器学习/图算法深度优化，Spark 性能倍级晋升。
针对问题 3。采纳 HDFS 性能减速。IO 智能预取，高效取数，Spark/Hbase 性能晋升 20%。

六、BoostKit 机器学习/图算法的深度优化

6.1、算法深度优化实例

BoostKit 机器学习/图算法基于原生算法深度优化，促使 Spark 性能失去倍级晋升，当初曾经被利用到华为的搭档业务之中，如下图所示的两个理论场景，在海量的数据集中，别离应用机器学习和图剖析的算法进行建模，咱们能够看到模型训练时长有大幅度的缩短，性能失去极大晋升。

BoostKit 机器学习/图算法的优化使得在理论利用场景中，计算性能均匀晋升 5 倍，而下层利用无需批改！

6.2、鲲鹏算法库

包含下面所提到和应用的机器学习 GBDT 算法、图剖析 PageRank 算法在内，鲲鹏算法库已交付 20+ 算法，涵盖罕用算法类型。
放弃与原生 Spark 算法完全一致的类和接口定义，无需下层利用做任何批改，只须要在提交工作时退出算法包即可。

采纳网络公开的多维度多规模数据集算法性能晋升 50%~10 倍以上。

七、BoostKit 做了哪些深度优化？

7.1、鲲鹏亲和性优化成果

要害优化点：

Communication-avoid，缩小了不必要节点之间的数据通信。
多核并行计算。利用鲲鹏本身劣势，进步了算法多核并行度，进步数据并行度与模型并行度，升高了通信 Shuffle 的瓶颈，以实现训练速度的晋升。

在等同计算精度，不同的数据集下，撑持机器学习算法（Covariance、Pearson、Spearman），性能晋升超过 50+%，如下图所示：

7.2、机器学习算法优化计划：分布式 SVD 算法

SVD 算法即奇怪值合成算法，是线性代数中罕用的的矩阵合成算法。SVD 算法不光能够用于降维算法中的特色合成，还能够用于举荐零碎，以及自然语言解决等畛域，是很多机器学习算法的基石。

对于传统的 SVD 算法，咱们也在之上进行了翻新，如下图所示：

7.3、图剖析算法优化计划：分布式 PageRank 算法

PageRank 算法，即网页排名算法，又称网页级别算法、Google 左侧排名算法或佩奇排名算法。该算法是对搜索引擎搜寻进去的后果、网页进行排名的一种算法，实质上是一种以网页之间的超链接的个数和品质作为次要因素粗略地剖析网页重要性的算法。即更重要的网页会被更多其余的网页所援用，依据援用的链接计算出每个网页的 PR 值。网页的PR值越高则阐明该网页越重要。PageRank 是 Google 用于用来标识网页的等级/重要性的一种办法，是 Google 用来掂量一个网站的好坏的唯一标准。

如上图所示，咱们将每一个网页看做一个点，网页与网页之间的连贯看成一条边，如此，便形成了图的数据结构。咱们就将对这个图的数据结构进行解决。那么咱们如何进行优化呢？

内存占用优化：基于稠密压缩的数据表示，使得算法的内存占用降落 30%，无效解决大数据规模下的内存瓶颈问题。
收敛检测优化：简化收敛检测过程，使整体工作量减少 5%~10%。
全量迭代+残差迭代组合优化：无效升高后期数据收缩带来的 shuffle 瓶颈，整体性能可晋升 0.5X~2X。

如上图所示，在优化之后，通过算法计算模式的自适应切换，整体 shuffle 量减少 50%，性能较优化前均匀晋升 50%+。

八、鲲鹏 BoostKit 机器学习&图算法的 Spark 性能减速实际

鲲鹏 BoostKit 机器学习&图算法的 Spark 性能减速实际能够在华为云平台上的“沙箱实验室”进行。

8.1、环境筹备

在试验进行之前，首先会预制环境，如下图所示：

8.2、环境配置

因为咱们的本算法是运行在 4 节点的集群上上，即运行在 4 台 ECS上，所以预制环境的过程可能较长，须要在云服务器上实现某些组件的配置，工夫大略为三分钟左右。如下图所示，咱们能够看到一个主节点和三个从节点。

8.3、部署 Hadoop、Spark 等组件

在预制环境的过程中，曾经实现了局部 Zookeeper 的相干配置，咱们只须要登陆每一个 agent 节点并进行大量的配置即可启动 Zookeeper，具体流程如下图所示：

对于 Hadoop 同理，预制环境时，曾经实现 Hadoop 的装置与 Hadoop 在 server 节点的配置，对于 agent 节点，咱们只须要在计算节点上大量配置，在 agent 端启动 JournalNode，在 server 端启动 Hadoop 其余组件即可，具体流程如下图所示：

对于 Spark，零碎并没有作相干的部署，仅仅是把 Spark 下载到了集群上，之后须要咱们增加 Spark 环境变量、批改 Spark 配置文件，同步到其余节点并进行工作提交，具体流程如下图所示：

8.4、算法库优化成果运行实际

8.4.1、运行 SVD 算法

调用算法库，代码如下：

sh bin/ml/svd_run.sh D10M1k
不调用算法库，代码如下：

sh bin/ml/svd_run_raw.sh D10M1k

8.4.2、运行 PageRank 算法