关于大数据:开源项目丨一文详解一站式大数据平台运维管家ChengYing如何部署Hadoop集群

35次阅读

共计 2547 个字符,预计需要花费 7 分钟才能阅读完成。

课件获取:关注公众号“数栈研习社”,后盾私信“ChengYing”取得直播课件

视频回放:点击这里

ChengYing 开源我的项目地址:github 丨 gitee 喜爱咱们的我的项目给咱们点个__ STAR!STAR!!STAR!!!(重要的事件说三遍)__

技术交换钉钉 qun:30537511

本期咱们带大家回顾一下陆地同学的直播分享《ChengYing 部署 Hadoop 集群实战》

一、Hadoop 集群部署筹备

在部署集群前,咱们须要做一些部署筹备,首先咱们须要依照下载 Hadoop 产品包:

● Mysql

https://dtstack-opensource.os…

● Zookeeper

https://dtstack-opensource.os…

● Hadoop

https://dtstack-opensource.os…

● Hive

https://dtstack-opensource.os…

● Spark

https://dtstack-opensource.os…

接着咱们能够将下载好的产品包间接通过 ChengYing 界面上传,具体门路是:部署核心—组件治理—组件列表—上传组件安装包:

能够通过两种模式上传产品包:

本地上传形式

产品包在先下载到本机电脑存储中,点击本地上传,选在产品包上传。

网络上传模式

间接填写产品包网络地址上传(ChengYing 的网络须要和产品包网络互通)。

Hadoop 集群部署流程

做完筹备后,咱们能够开始进入集群部署,Hadoop 集群部署流程包含以下步骤:

集群部署程序阐明

  • 首先须要部署 Mysql 和 zookeeper,因为 Hadoop 须要依赖 zookeeper,Hive 元数据存储应用的是 Mysql;
  • 其次须要部署 Hadoop,Hive
  • 最初部署 Spark,因 Spark 依赖 hivemetastore

PS:部署程序是不可逆的

Hadoop 集群部署角色散布

产品包规范部署流程

  • 抉择须要部署的产品包,点击部署按钮,而后抉择对应须要部署的集群,默认集群为 dtstack,集群名称可配置;
  • 下一步抉择须要部署的服务,默认产品包下的服务都会部署,能够依据理论需要部署,在此阶段能够对服务的配置文件进行批改,例如:批改 Mysql 连贯超时工夫等;
  • 最初点击部署,期待部署实现。

Mysql 服务部署流程演示

接下来咱们以 Mysql 服务部署流程来为大家理论演示下整体流程:

● 第一步:抉择集群

● 第二步:抉择产品包

● 第三步:抉择部署节点

● 第四步:部署进度查看

● 第五步:部署后状态查看

Hadoop 集群应用与运维

集群部署结束后,若有需要能够进行配置变更操作。

● 配置批改

例如:如果须要操作批改 yarn 的配置文件,能够先抉择 yarn-site.xml 文件,能够在搜寻框搜寻须要批改的配置文件 key,如 cpu_vcores。

● 配置保留

● 配置下发

Taier 对接 Hadoop 操作流程

ChengYing 除了可主动部署运维外,还能够对接 Taier 部署 Hadoop 集群,Taier 是一个大数据分布式可视化的 DAG 任务调度零碎,旨在升高 ETL 开发成本、进步大数据平台稳定性,大数据开发人员能够在 Taier 间接进行业务逻辑的开发,而不必关怀工作盘根错节的依赖关系与底层的大数据平台的架构实现,将工作的重心更多地聚焦在业务之中。

利用 ChengYing 部署治理 Taier 服务,能够做到实时监控 Taier 的服务状态,随时界面批改 Taier 配置等。Taier 对接 Hadoop 集群的操作流程如下:

  • 首先须要在 Taier 控制台抉择多集群配置,新增一个集群;
  • 而后配置 sftp、资源调度组件、存储组件和计算组件;
  • 配置实现后须要保留并且测试连通性。

注意事项:

在对接过程中,sftp 主机须要和 Taier 网络相通,并且 sftp 配置主机的门路须要存在,如果不存在,须要手动创立。

Taier 的部署网络须要与 Hadoop 网络相通,如果运行工作,须要在 Taier 所在节点退出 Hadoop 集群的 Host 配置; 编译 /etc/hosts 文件,减少 IP Hostname。

● 第一步:配置公共组件

首先进入 Taier 登陆界面,点击控制台,新增集群,而后进入多集群治理界面,配置公共组件,抉择 SFTP,进入 SFTP 配置界面。

● 第二步:配置 SFTP

而后配置 SFTP 的 host,认证形式,默认采纳用户名明码形式,输出用户名和明码,并且输出 path 门路,此门路须要在主机上存在,如果不存在,须要手动创立一个 SFTP 门路.

● 第三步:资源调度组件配置

须要到部署 Hadoop 服务器到 /opt/dtstack/Hive/hive_pkg/conf 目录下获取 hive-site.xml 文件,下载到本地;

到 /opt/dtstack/Hadoop/Hadoop_pkg/etc/Hadoop 目录下获取 hdfs-site.xml、core-site.xml、yarn-site.xml 文件,下载到本地;

这四个文件压缩成一个 zip 包,上传这个压缩包。

● 第四步:计算组件配置

抉择计算组件模块,抉择须要对接的计算引擎 Hive 和 Spark,抉择 Hive 和 Spark 的版本,填写对应的 jdbc(jdbc:hive://ip:port/)连贯串,而后点击保留,测试连通性。

留神:jdbcurl 中 ip 别离为 Hive 组件的 hiveserver2 和 Spark 中的 thrifterserver 所在节点 ip。

● 第五步:配置 Hive 和 Spark

以下是配置实现 Hive 和 Spark 组件后,测试连通性的状态。

留神:本地演示环境 Hadoop 未开启平安,Hive 和 Spark 只须要配置 jdbcurl 即可。

Hadoop 集群近期布局

最初和大家聊聊 Hadoop 集群近期布局,近期次要有三大布局:

● 产品包制作

制作 ChengYing 部署产品包的流程及实际。

● ChunJun&Taier 产品包

制作能够用 ChengYing 部署的 Taier 和 chunjun 的产品包

● Hadoop 运维

通过 ChengYing 运维大数据集群;

通过 ChengYing 一键开启 Hadoop 集群平安。

袋鼠云开源框架钉钉技术交换 qun(30537511),欢送对大数据开源我的项目有趣味的同学退出交换最新技术信息,开源我的项目库地址:https://github.com/DTStack

正文完
 0