乐趣区

关于后端:在Windows上的安装-Spark

装置 Java 8 或更高版本

要在 windows 上装置 Apache Spark,你须要 Java 8 或最新的版本,因而从 Oracle 下载 Java 版本并装置在你的零碎上。如果你想要 OpenJDK,你能够从这里 下载. 它。

下载后,双击下载的文件,以便在您的 windows 零碎上装置它。抉择任何自定义目录或放弃默认地位。

留神:这是以 Java 8 上装置 Apache Spark 为例,同样的步骤也实用于 Java 11 和 13 版本。

Apache Spark 在 Windows 上的装置

Apache Spark 是以压缩的 tar/zip 文件模式呈现的,因而在 Windows 上的装置并不艰难,你只须要下载并解压文件。通过拜访 Spark 下载页面并抉择 “ 下载 Spark(上面截图中的第 3 点)” 中的链接,下载 Apache Spark。

如果你想应用不同版本的 Spark 和 Hadoop,从下拉菜单中抉择你想要的版本;第 3 点上的链接会扭转为所选的版本,并为你提供一个更新的下载链接。

下载后,应用压缩工具解压二进制文件,并将解压后的目录 spark-3.0.0-bin-hadoop2.7 复制到c:\apps\opt\spark-3.0.0-bin-hadoop2.7。

Spark 环境变量

在 windows 上装置 Java 和 Apache Spark 后,设置 JAVA_HOMESPARK_HOMEHADOOP_HOMEPATH环境变量。如果你晓得如何在 windows 上设置环境变量,请增加以下内容:

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201
PATH = %PATH%;%JAVA_HOME%

SPARK_HOME  = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
HADOOP_HOME = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
PATH=%PATH%;%SPARK_HOME%

如果你不晓得如何在 windows 上增加或编辑环境变量,请遵循以下步骤。

  1. 关上零碎环境变量窗口,抉择环境变量。
  2. 在上面的环境变量屏幕上,通过抉择新建选项,增加SPARK_HOMEHADOOP_HOMEJAVA_HOME

  3. 这将关上新用户变量窗口,你能够在这里输出变量名称和值。
  4. 当初编辑 PATH 变量

  5. 通过抉择 “ 新建 “ 选项增加 Spark、Java 和 Hadoop 的 bin 地位。

在 Windows 上应用 winutils.exe 的 Spark

许多初学者认为 Apache Spark 须要装置 Hadoop 集群能力运行,但事实并非如此,Spark 能够通过应用 S3 在 AWS 上运行,也能够通过应用 blob 存储在 Azure 上运行,无需 Hadoop 和 HDFS 等。

要在 windows 上运行 Apache Spark,你须要 winutils.exe,因为它应用 windows API 在 windows 中应用相似 POSIX 的文件拜访操作。

winutils.exe 使 Spark 可能应用 Windows 特有的服务,包含在 Windows 环境下运行 shell 命令。

为 Hadoop 2.7 下载 winutils.exe,并将其复制到 %SPARK_HOME%\bin 文件夹。Winutils 对于每个 Hadoop 版本都是不同的,因而,依据你的 Spark 与 Hadoop 的发行版,从 https://github.com/stevelough…,下载正确的版本。

Apache Spark shell

spark-shell 是 Apache Spark 发行版附带的 CLI 工具,关上命令提示符,进入 cd %SPARK_HOME%/bin,输出 spark-shell 命令,运行 Apache Spark shell。你应该看到如下内容(疏忽你在最初看到的正告):

Spark-shell 还创立了一个 Spark 上下文的 Web UI,默认状况下,它能够从浏览器关上 http://localhost:4041,以拜访 Spark Web UI 来监控您的工作。

在 spark-shell 命令行中,你能够运行任何 Spark 语句,如创立 RDD,取得 Spark 版本等。

这就实现了 Apache Spark 在 Windows 7、10 和任何最新版本的装置。

Windows 上的 Web UI

Apache Spark 提供了一套 Web UI((Jobs, Stages, Tasks, Storage, Environment, Executors, SQL)来监控你的 Spark 应用程序的状态、Spark 集群的资源耗费和 Spark 配置。在 Spark Web UI 上,你能够看到操作是如何执行的。

历史服务器

历史服务器会保留你通过 spark-submit、spark-shell 提交的所有 Spark 应用程序的日志。你能够通过在 spark-defaults.conf 文件中增加以下配置,使 Spark 可能收集日志,conf 文件位于 %SPARK_HOME%/conf 目录。

spark.eventLog.enabled true
spark.history.fs.logDirectory file:///c:/logs/path

设置完上述属性后,通过启动上面的命令启动历史服务器:

$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer

默认状况下,历史服务器采纳 18080 端口进行监听,能够应用 http://localhost:18080/ 从浏览器拜访它。

通过点击每个应用程序 ID,你将在 Spark Web UI 中取得该应用程序的详细信息。

综上所述,曾经学会了如何在 windows 上装置 Apache Spark 并在 spark-shell 中运行样本语句,并学会了如何启动 spark web-UI 和历史服务器。
hi,我是 @编程大 K,善于后端、人工智能、大数据处理的伪全能工程师,在平台输入对于 技术文章、职业倒退和自我晋升 的干货,看到感兴趣的实事热榜也忍不住唠两句嗑。想与你一起提高,能够通过这些答复来意识我呀:

机器学习方面的论文应该在哪找?

计算机互联网「寒冬」是临时趋势还是永恒趋势?

对你影响最深的计算机书籍是哪一本?

Spark 的内存计算 次要体现在 哪些方面?

退出移动版