乐趣区

关于云计算:Flink-on-Yarn三部曲之三提交Flink任务

欢送拜访我的 GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,波及 Java、Docker、Kubernetes、DevOPS 等;

本文是《Flink on Yarn 三部曲》系列的终篇,先简略回顾后面的内容:

  1. 《Flink on Yarn 三部曲之一:筹备工作》:筹备好机器、脚本、安装包;
  2. 《Flink on Yarn 三部曲之二:部署和设置》:实现 CDH 和 Flink 部署,并在治理页面做好相干的设置;

当初 Flink、Yarn、HDFS 都就绪了,接下来实际提交 Flink 工作到 Yarn 执行;

全文链接

  1. 《Flink on Yarn 三部曲之一:筹备工作》
  2. 《Flink on Yarn 三部曲之二:部署和设置》
  3. 《Flink on Yarn 三部曲之三:提交 Flink 工作》

两种 Flink on YARN 模式

实际之前,对 Flink on YARN 先简略理解一下,如下图所示,Flink on Yarn 在应用的时候分为两种模式,<font color=”blue”>Job Mode</font> 和 <font color=”blue”>Session Mode</font>:

<font color=”blue”>Session Mode</font>:在 YARN 中提前初始化一个 Flink 集群,当前所有 Flink 工作都提交到这个集群,如下图:

<font color=”blue”>Job Mode</font>:每次提交 Flink 工作都会创立一个专用的 Flink 集群,工作实现后资源开释,如下图:

接下来别离实战这两种模式;

筹备实战用的数据 (CDH 服务器)

接下来提交的 Flink 工作是经典的 WordCount,先在 HDFS 中筹备一份文本文件,前面提交的 Flink 工作都会读取这个文件,统计外面每个单词的数字,筹备文本的步骤如下:

  1. SSH 登录 CDH 服务器;
  2. 切换到 hdfs 账号:<font color=”blue”>su – hdfs</font>
  3. 下载实战用的 txt 文件:
wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt
  1. 创立 hdfs 文件夹:<font color=”blue”>hdfs dfs -mkdir /input</font>
  2. 将文本文件上传到 /input 目录:<font color=”blue”>hdfs dfs -put ./GoneWiththeWind.txt /input</font>

筹备工作实现,能够提交工作试试了。

Session Mode 实战

  1. SSH 登录 CDH 服务器;
  2. 切换到 hdfs 账号:<font color=”blue”>su – hdfs</font>
  3. 进入目录:<font color=”blue”>/opt/flink-1.7.2/</font>
  4. 执行如下命令创立 Flink 集群,<font color=”red”>-n</font> 参数示意 TaskManager 的数量,<font color=”red”>-jm</font> 示意 JobManager 的内存大小,<font color=”red”>-tm</font> 示意每个 TaskManager 的内存大小:
./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024
  1. 创立胜利后,控制台输入如下图,留神红框中的提醒,表明能够通过 38301 端口拜访 Flink:

  1. 浏览器拜访 CDH 服务器的 38301 端口,可见 Flink 服务曾经启动:

  1. 浏览器拜访 CDH 服务器的 8088 端口,可见 YARN 的 Application(即 Flink 集群) 创立胜利,如下图,红框中是工作 ID,稍后完结 Application 的时候会用到此 ID:

  1. 再开启一个终端,SSH 登录 CDH 服务器,切换到 hdfs 账号,进入目录:<font color=”blue”>/opt/flink-1.7.2</font>
  2. 执行以下命令,就会提交一个 Flink 工作(安装包自带的 WordCount 例子),并指明将后果输入到 HDFS 的 <font color=”blue”>wordcount-result.txt</font> 文件中:
bin/flink run ./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result.txt
  1. 执行结束后,控制台输入如下:

  1. flink 的 WordCount 工作后果保留在 hdfs,咱们将后果取出来看看:<font color=”blue”>hdfs dfs -get /wordcount-result.txt</font>
  2. vi 关上 wordcount-result.txt 文件,如下图,可见工作执行胜利,指定文本中的每个单词数量都统计进去了:

  1. 浏览器拜访 Flink 页面 (CDH 服务器的 38301 端口),也能看到工作的详细情况:

  1. 销毁这个 Flink 集群的办法是在控制台执行命令:<font color=”blue”>yarn application -kill application_1580173588985_0002</font>


Session Mode 的实战就实现了,接下来咱们来尝试 Job Mode;

Job Mode

  1. 执行以下命令,创立一个 Flink 集群,该集群只用于执行参数中指定的工作 (wordCount.jar),后果输入到 hdfs 的 wordcount-result-1.txt 文件:
bin/flink run -m yarn-cluster \
-yn 2 \
-yjm 1024 \
-ytm 1024 \
./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result-1.txt
  1. 控制台输入如下,表明工作执行实现:

  1. 如果您的内存和 CPU 核数富余,能够立刻执行以下命令再创立一个 Flink 集群,该集群只用于执行参数中指定的工作 (wordCount.jar),后果输入到 hdfs 的 <font color=”blue”>wordcount-result-2.txt</font> 文件:
bin/flink run -m yarn-cluster \
-yn 2 \
-yjm 1024 \
-ytm 1024 \
./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result-2.txt
  1. 在 YARN 治理页面可见工作曾经完结:

  1. 执行命令 <font color=”blue”>hdfs dfs -ls /</font> 查看后果文件,曾经胜利生成:

  1. 执行命令 <font color=”blue”>hdfs dfs -get /wordcount-result-1.txt</font> 下载后果文件到本地,检查数据失常;
  2. 至此,Flink on Yarn 的部署、设置、提交都实际实现,《Flink on Yarn 三部曲》系列也完结了,如果您也在学习 Flink,心愿本文可能给您一些参考,也建议您依据本身状况和需要,批改 ansible 脚本,搭建更适宜本人的环境;

欢送关注公众号:程序员欣宸

微信搜寻「程序员欣宸」,我是欣宸,期待与您一起畅游 Java 世界 …
https://github.com/zq2599/blog_demos

退出移动版