关于云计算:Flink-on-Yarn三部曲之三提交Flink任务

https://github.com/zq2599/blog_demos

内容：所有原创文章分类汇总及配套源码，波及 Java、Docker、Kubernetes、DevOPS 等；

本文是《Flink on Yarn 三部曲》系列的终篇，先简略回顾后面的内容：

《Flink on Yarn 三部曲之一：筹备工作》：筹备好机器、脚本、安装包；
《Flink on Yarn 三部曲之二：部署和设置》：实现 CDH 和 Flink 部署，并在治理页面做好相干的设置；

当初 Flink、Yarn、HDFS 都就绪了，接下来实际提交 Flink 工作到 Yarn 执行；

《Flink on Yarn 三部曲之一：筹备工作》
《Flink on Yarn 三部曲之二：部署和设置》
《Flink on Yarn 三部曲之三：提交 Flink 工作》

实际之前，对 Flink on YARN 先简略理解一下，如下图所示，Flink on Yarn 在应用的时候分为两种模式，Job Mode 和 Session Mode：

Session Mode：在 YARN 中提前初始化一个 Flink 集群，当前所有 Flink 工作都提交到这个集群，如下图：

Job Mode：每次提交 Flink 工作都会创立一个专用的 Flink 集群，工作实现后资源开释，如下图：

接下来别离实战这两种模式；

接下来提交的 Flink 工作是经典的 WordCount，先在 HDFS 中筹备一份文本文件，前面提交的 Flink 工作都会读取这个文件，统计外面每个单词的数字，筹备文本的步骤如下：

SSH 登录 CDH 服务器；
切换到 hdfs 账号：su – hdfs
下载实战用的 txt 文件：

wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt

创立 hdfs 文件夹：hdfs dfs -mkdir /input
将文本文件上传到 /input 目录：hdfs dfs -put ./GoneWiththeWind.txt /input

筹备工作实现，能够提交工作试试了。

SSH 登录 CDH 服务器；
切换到 hdfs 账号：su – hdfs
进入目录：/opt/flink-1.7.2/
执行如下命令创立 Flink 集群，-n 参数示意 TaskManager 的数量，-jm 示意 JobManager 的内存大小，-tm 示意每个 TaskManager 的内存大小：

./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024

创立胜利后，控制台输入如下图，留神红框中的提醒，表明能够通过 38301 端口拜访 Flink：

浏览器拜访 CDH 服务器的 38301 端口，可见 Flink 服务曾经启动：

浏览器拜访 CDH 服务器的 8088 端口，可见 YARN 的 Application(即 Flink 集群) 创立胜利，如下图，红框中是工作 ID，稍后完结 Application 的时候会用到此 ID：

再开启一个终端，SSH 登录 CDH 服务器，切换到 hdfs 账号，进入目录：/opt/flink-1.7.2
执行以下命令，就会提交一个 Flink 工作（安装包自带的 WordCount 例子），并指明将后果输入到 HDFS 的 wordcount-result.txt 文件中：

bin/flink run ./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result.txt

执行结束后，控制台输入如下：

flink 的 WordCount 工作后果保留在 hdfs，咱们将后果取出来看看：hdfs dfs -get /wordcount-result.txt
vi 关上 wordcount-result.txt 文件，如下图，可见工作执行胜利，指定文本中的每个单词数量都统计进去了：

浏览器拜访 Flink 页面 (CDH 服务器的 38301 端口)，也能看到工作的详细情况：

销毁这个 Flink 集群的办法是在控制台执行命令：yarn application -kill application_1580173588985_0002

Session Mode 的实战就实现了，接下来咱们来尝试 Job Mode；

执行以下命令，创立一个 Flink 集群，该集群只用于执行参数中指定的工作 (wordCount.jar)，后果输入到 hdfs 的 wordcount-result-1.txt 文件：

bin/flink run -m yarn-cluster \
-yn 2 \
-yjm 1024 \
-ytm 1024 \
./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result-1.txt

控制台输入如下，表明工作执行实现：

如果您的内存和 CPU 核数富余，能够立刻执行以下命令再创立一个 Flink 集群，该集群只用于执行参数中指定的工作 (wordCount.jar)，后果输入到 hdfs 的 wordcount-result-2.txt 文件：

bin/flink run -m yarn-cluster \
-yn 2 \
-yjm 1024 \
-ytm 1024 \
./examples/batch/WordCount.jar \
-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \
-output hdfs://192.168.50.134:8020/wordcount-result-2.txt

在 YARN 治理页面可见工作曾经完结：

执行命令 hdfs dfs -ls / 查看后果文件，曾经胜利生成：

执行命令 hdfs dfs -get /wordcount-result-1.txt 下载后果文件到本地，检查数据失常；
至此，Flink on Yarn 的部署、设置、提交都实际实现，《Flink on Yarn 三部曲》系列也完结了，如果您也在学习 Flink，心愿本文可能给您一些参考，也建议您依据本身状况和需要，批改 ansible 脚本，搭建更适宜本人的环境；

微信搜寻「程序员欣宸」，我是欣宸，期待与您一起畅游 Java 世界 …
https://github.com/zq2599/blog_demos

关于云计算:Flink-on-Yarn三部曲之三提交Flink任务

欢送拜访我的 GitHub

全文链接

两种 Flink on YARN 模式

筹备实战用的数据 (CDH 服务器)

Session Mode 实战

Job Mode

欢送关注公众号：程序员欣宸