欢送拜访我的GitHub

https://github.com/zq2599/blog_demos

内容:所有原创文章分类汇总及配套源码,波及Java、Docker、Kubernetes、DevOPS等;

本文是《Flink on Yarn三部曲》系列的终篇,先简略回顾后面的内容:

  1. 《Flink on Yarn三部曲之一:筹备工作》:筹备好机器、脚本、安装包;
  2. 《Flink on Yarn三部曲之二:部署和设置》:实现CDH和Flink部署,并在治理页面做好相干的设置;

当初Flink、Yarn、HDFS都就绪了,接下来实际提交Flink工作到Yarn执行;

全文链接

  1. 《Flink on Yarn三部曲之一:筹备工作》
  2. 《Flink on Yarn三部曲之二:部署和设置》
  3. 《Flink on Yarn三部曲之三:提交Flink工作》

两种Flink on YARN模式

实际之前,对Flink on YARN先简略理解一下,如下图所示,Flink on Yarn在应用的时候分为两种模式,<font color="blue">Job Mode</font>和<font color="blue">Session Mode</font>:

<font color="blue">Session Mode</font>:在YARN中提前初始化一个Flink集群,当前所有Flink工作都提交到这个集群,如下图:

<font color="blue">Job Mode</font>:每次提交Flink工作都会创立一个专用的Flink集群,工作实现后资源开释,如下图:

接下来别离实战这两种模式;

筹备实战用的数据(CDH服务器)

接下来提交的Flink工作是经典的WordCount,先在HDFS中筹备一份文本文件,前面提交的Flink工作都会读取这个文件,统计外面每个单词的数字,筹备文本的步骤如下:

  1. SSH登录CDH服务器;
  2. 切换到hdfs账号:<font color="blue">su - hdfs</font>
  3. 下载实战用的txt文件:
wget https://github.com/zq2599/blog_demos/blob/master/files/GoneWiththeWind.txt
  1. 创立hdfs文件夹:<font color="blue">hdfs dfs -mkdir /input</font>
  2. 将文本文件上传到/input目录:<font color="blue">hdfs dfs -put ./GoneWiththeWind.txt /input</font>

筹备工作实现,能够提交工作试试了。

Session Mode实战

  1. SSH登录CDH服务器;
  2. 切换到hdfs账号:<font color="blue">su - hdfs</font>
  3. 进入目录:<font color="blue">/opt/flink-1.7.2/</font>
  4. 执行如下命令创立Flink集群,<font color="red">-n</font>参数示意TaskManager的数量,<font color="red">-jm</font>示意JobManager的内存大小,<font color="red">-tm</font>示意每个TaskManager的内存大小:
./bin/yarn-session.sh -n 2 -jm 1024 -tm 1024
  1. 创立胜利后,控制台输入如下图,留神红框中的提醒,表明能够通过38301端口拜访Flink:

  1. 浏览器拜访CDH服务器的38301端口,可见Flink服务曾经启动:

  1. 浏览器拜访CDH服务器的8088端口,可见YARN的Application(即Flink集群)创立胜利,如下图,红框中是工作ID,稍后完结Application的时候会用到此ID:

  1. 再开启一个终端,SSH登录CDH服务器,切换到hdfs账号,进入目录:<font color="blue">/opt/flink-1.7.2</font>
  2. 执行以下命令,就会提交一个Flink工作(安装包自带的WordCount例子),并指明将后果输入到HDFS的<font color="blue">wordcount-result.txt</font>文件中:
bin/flink run ./examples/batch/WordCount.jar \-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \-output hdfs://192.168.50.134:8020/wordcount-result.txt
  1. 执行结束后,控制台输入如下:

  1. flink的WordCount工作后果保留在hdfs,咱们将后果取出来看看:<font color="blue">hdfs dfs -get /wordcount-result.txt</font>
  2. vi关上wordcount-result.txt文件,如下图,可见工作执行胜利,指定文本中的每个单词数量都统计进去了:

  1. 浏览器拜访Flink页面(CDH服务器的38301端口),也能看到工作的详细情况:

  1. 销毁这个Flink集群的办法是在控制台执行命令:<font color="blue">yarn application -kill application_1580173588985_0002</font>


Session Mode的实战就实现了,接下来咱们来尝试Job Mode;

Job Mode

  1. 执行以下命令,创立一个Flink集群,该集群只用于执行参数中指定的工作(wordCount.jar),后果输入到hdfs的wordcount-result-1.txt文件:
bin/flink run -m yarn-cluster \-yn 2 \-yjm 1024 \-ytm 1024 \./examples/batch/WordCount.jar \-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \-output hdfs://192.168.50.134:8020/wordcount-result-1.txt
  1. 控制台输入如下,表明工作执行实现:

  1. 如果您的内存和CPU核数富余,能够立刻执行以下命令再创立一个Flink集群,该集群只用于执行参数中指定的工作(wordCount.jar),后果输入到hdfs的<font color="blue">wordcount-result-2.txt</font>文件:
bin/flink run -m yarn-cluster \-yn 2 \-yjm 1024 \-ytm 1024 \./examples/batch/WordCount.jar \-input hdfs://192.168.50.134:8020/input/GoneWiththeWind.txt \-output hdfs://192.168.50.134:8020/wordcount-result-2.txt
  1. 在YARN治理页面可见工作曾经完结:

  1. 执行命令<font color="blue">hdfs dfs -ls /</font>查看后果文件,曾经胜利生成:

  1. 执行命令<font color="blue">hdfs dfs -get /wordcount-result-1.txt</font>下载后果文件到本地,检查数据失常;
  2. 至此,Flink on Yarn的部署、设置、提交都实际实现,《Flink on Yarn三部曲》系列也完结了,如果您也在学习Flink,心愿本文可能给您一些参考,也建议您依据本身状况和需要,批改ansible脚本,搭建更适宜本人的环境;

欢送关注公众号:程序员欣宸

微信搜寻「程序员欣宸」,我是欣宸,期待与您一起畅游Java世界...
https://github.com/zq2599/blog_demos