关于前端:集群模式执行Spark程序第七弹

38次阅读

共计 2069 个字符,预计需要花费 6 分钟才能阅读完成。

增加打包插件

在 pom.xml 文件中增加所需插件

插入内容如下:

<build>

    <sourceDirectory>src/main/scala</sourceDirectory>

    <testSourceDirectory>src/test/scala</testSourceDirectory>

    <plugins>

        <plugin>

            <groupId>net.alchim31.maven</groupId>

            <artifactId>scala-maven-plugin</artifactId>

            <version>3.2.2</version>

            <executions>

                <execution>

                    <goals>

                        <goal>compile</goal>

                        <goal>testCompile</goal>

                    </goals>

                    <configuration>

                        <args>

                            <arg>-dependencyfile</arg>

                            <arg>${project.build.directory}/.scala_dependencies</arg>

                        </args>

                    </configuration>

                </execution>

            </executions>

        </plugin>

        <plugin>

            <groupId>org.apache.maven.plugins</groupId>

            <artifactId>maven-shade-plugin</artifactId>

            <version>2.4.3</version>

            <executions>

                <execution>

                    <phase>package</phase>

                    <goals>

                        <goal>shade</goal>

                    </goals>

                    <configuration>

                        <filters>

                            <filter>

                                <artifact>*:*</artifact>

                                <excludes>

                                    <exclude>META-INF/*.SF</exclude>

                                    <exclude>META-INF/*.DSA</exclude>

                                    <exclude>META-INF/*.RSA</exclude>

                                </excludes>

                            </filter>

                        </filters>

                        <transformers>

                            <transformer implementation=

                                                 "org.apache.maven.plugins.shade.resource.ManifestResourceTransformer">

                                <mainClass></mainClass>

                            </transformer>

                        </transformers>

                    </configuration>

                </execution>

            </executions>

        </plugin>

    </plugins>

</build>

期待加载

步骤 1 将鼠标点在 WordCount ,ctrl+ c 后 ctrl+ v 复制,重新命名为 WordCount_Online

步骤 2 批改代码

3. 读取数据文件,RDD 能够简略的了解为是一个汇合,汇合中寄存的元素是 String 类型

val data : RDD[String] = sparkContext.textFile(args(0))

7. 把后果数据保留到 HDFS 上

result.saveAsTextFile(args(1))

批改以上这 2 行代码

步骤 3 点击左边【maven projects】—> 双击【lifecycle】下的 package,主动将我的项目打包成 Jar 包

[图片上传失败 …(image-d48c38-1660375399984

打包胜利标记:显示 BUILD SUCCESS,能够看到 target 目录下的 2 个 jar 包

步骤 4 启动 Hadoop 集群能力拜访 web 页面

$ start-all.sh

步骤 5 拜访 192.168.196.101(master):50070 点击【utilities】—>【browse the file system】

步骤 6 点击【spark】—>【test】,能够看到 words.txt

步骤 7 将 words.txt 删除

$  hadoop fs -rm /spark/test/words.txt

步骤 8 刷新下页面。能够看到 /spark/test 门路下没有 words.txt

步骤 9  Alt+p, 切到 /opt/software, 把含有第 3 方 jar 的 spark_chapter02-1.0-SNAPSHOT.jar 包拉进

先将解压的两个 jar 包复制进去

步骤 10 也把 F 盘 /word/words.txt 间接拉进 /opt/software

步骤 11 查看有没有 words.txt 和 spark_chapter02-1.0-SNAPSHOT.jar

步骤 12 执行提交命令

$ *bin/spark-submit *

–master spark:// master:7077 \
–executor-memory 1g \
–total-executor-cores 1 \
/opt/software/spark_chapter02-1.0-SNAPSHOT.jar \
/spark/test/words.txt \
/spark/test/out

正文完
 0