关于大数据:开源项目丨一文详解一站式大数据平台运维管家ChengYing如何部署Hadoop集群

August 11, 2022 · 1 min · jiezi

Table of Contents

课件获取：关注公众号“数栈研习社”，后盾私信 “ChengYing” 取得直播课件

视频回放：点击这里

ChengYing开源我的项目地址：github 丨 gitee 喜爱咱们的我的项目给咱们点个__ STAR！STAR！！STAR！！！（重要的事件说三遍）__

技术交换钉钉 qun：30537511

本期咱们带大家回顾一下陆地同学的直播分享《ChengYing部署Hadoop集群实战》

一、Hadoop集群部署筹备

在部署集群前，咱们须要做一些部署筹备，首先咱们须要依照下载Hadoop产品包：

● Mysql

https://dtstack-opensource.os...

● Zookeeper

https://dtstack-opensource.os...

● Hadoop

https://dtstack-opensource.os...

● Hive

https://dtstack-opensource.os...

● Spark

https://dtstack-opensource.os...

接着咱们能够将下载好的产品包间接通过ChengYing界面上传，具体门路是：部署核心—组件治理—组件列表—上传组件安装包：

能够通过两种模式上传产品包：

本地上传形式

产品包在先下载到本机电脑存储中，点击本地上传，选在产品包上传。

网络上传模式

间接填写产品包网络地址上传（ChengYing的网络须要和产品包网络互通）。

Hadoop集群部署流程

做完筹备后，咱们能够开始进入集群部署，Hadoop集群部署流程包含以下步骤：

集群部署程序阐明

首先须要部署Mysql和zookeeper，因为Hadoop须要依赖zookeeper，Hive元数据存储应用的是Mysql；
其次须要部署Hadoop，Hive
最初部署Spark，因Spark依赖hivemetastore

PS：部署程序是不可逆的

Hadoop集群部署角色散布

产品包规范部署流程

抉择须要部署的产品包，点击部署按钮，而后抉择对应须要部署的集群，默认集群为dtstack，集群名称可配置；
下一步抉择须要部署的服务，默认产品包下的服务都会部署，能够依据理论需要部署，在此阶段能够对服务的配置文件进行批改，例如：批改Mysql连贯超时工夫等；
最初点击部署，期待部署实现。

Mysql服务部署流程演示

接下来咱们以Mysql服务部署流程来为大家理论演示下整体流程：

● 第一步：抉择集群

● 第二步：抉择产品包

● 第三步：抉择部署节点

● 第四步：部署进度查看

● 第五步：部署后状态查看

Hadoop集群应用与运维

集群部署结束后，若有需要能够进行配置变更操作。

● 配置批改

例如：如果须要操作批改yarn的配置文件，能够先抉择yarn-site.xml文件，能够在搜寻框搜寻须要批改的配置文件key，如cpu_vcores。

● 配置保留

● 配置下发

Taier对接Hadoop操作流程

ChengYing除了可主动部署运维外，还能够对接Taier部署Hadoop集群，Taier 是一个大数据分布式可视化的DAG任务调度零碎，旨在升高ETL开发成本、进步大数据平台稳定性，大数据开发人员能够在 Taier 间接进行业务逻辑的开发，而不必关怀工作盘根错节的依赖关系与底层的大数据平台的架构实现，将工作的重心更多地聚焦在业务之中。

利用ChengYing部署治理Taier服务，能够做到实时监控Taier的服务状态，随时界面批改Taier配置等。Taier对接Hadoop集群的操作流程如下：

首先须要在Taier控制台抉择多集群配置，新增一个集群；
而后配置sftp、资源调度组件、存储组件和计算组件；
配置实现后须要保留并且测试连通性。

注意事项：

在对接过程中，sftp主机须要和Taier网络相通，并且sftp配置主机的门路须要存在，如果不存在，须要手动创立。

Taier的部署网络须要与Hadoop网络相通，如果运行工作，须要在Taier所在节点退出Hadoop集群的Host配置;编译/etc/hosts文件，减少IP Hostname。

● 第一步：配置公共组件

首先进入Taier登陆界面，点击控制台，新增集群，而后进入多集群治理界面，配置公共组件，抉择SFTP，进入SFTP配置界面。

● 第二步：配置SFTP

而后配置SFTP的host，认证形式，默认采纳用户名明码形式，输出用户名和明码，并且输出path门路，此门路须要在主机上存在，如果不存在，须要手动创立一个SFTP门路.

● 第三步：资源调度组件配置

须要到部署Hadoop服务器到/opt/dtstack/Hive/hive_pkg/conf目录下获取hive-site.xml文件，下载到本地；

到/opt/dtstack/Hadoop/Hadoop_pkg/etc/Hadoop目录下获取hdfs-site.xml、core-site.xml、yarn-site.xml文件，下载到本地；

这四个文件压缩成一个zip包，上传这个压缩包。

● 第四步：计算组件配置

抉择计算组件模块，抉择须要对接的计算引擎Hive和Spark，抉择Hive和Spark的版本，填写对应的jdbc（jdbc:hive://ip:port/）连贯串，而后点击保留，测试连通性。

留神：jdbcurl中ip别离为Hive组件的hiveserver2和Spark中的thrifterserver所在节点ip。

● 第五步：配置Hive和Spark

以下是配置实现Hive和Spark组件后，测试连通性的状态。

留神：本地演示环境Hadoop未开启平安，Hive和Spark只须要配置jdbcurl即可。

Hadoop集群近期布局

最初和大家聊聊Hadoop集群近期布局，近期次要有三大布局：

● 产品包制作

制作ChengYing部署产品包的流程及实际。

● ChunJun&Taier产品包

制作能够用ChengYing部署的Taier和chunjun的产品包

● Hadoop运维

通过ChengYing运维大数据集群；

通过ChengYing一键开启Hadoop集群平安。

袋鼠云开源框架钉钉技术交换qun（30537511），欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息，开源我的项目库地址：https://github.com/DTStack