装置 Java 8 或更高版本
要在 windows 上装置 Apache Spark,你须要 Java 8 或最新的版本,因而从 Oracle 下载 Java 版本并装置在你的零碎上。如果你想要 OpenJDK,你能够从这里 下载. 它。
下载后,双击下载的文件,以便在您的 windows 零碎上装置它。抉择任何自定义目录或放弃默认地位。
留神:这是以 Java 8 上装置 Apache Spark 为例,同样的步骤也实用于 Java 11 和 13 版本。
Apache Spark 在 Windows 上的装置
Apache Spark 是以压缩的 tar/zip 文件模式呈现的,因而在 Windows 上的装置并不艰难,你只须要下载并解压文件。通过拜访 Spark 下载页面并抉择 “ 下载 Spark(上面截图中的第 3 点)” 中的链接,下载 Apache Spark。
如果你想应用不同版本的 Spark 和 Hadoop,从下拉菜单中抉择你想要的版本;第 3 点上的链接会扭转为所选的版本,并为你提供一个更新的下载链接。
下载后,应用压缩工具解压二进制文件,并将解压后的目录 spark-3.0.0-bin-hadoop2.7 复制到c:\apps\opt\spark-3.0.0-bin-hadoop2.7。
Spark 环境变量
在 windows 上装置 Java 和 Apache Spark 后,设置 JAVA_HOME
、SPARK_HOME
、HADOOP_HOME
和PATH
环境变量。如果你晓得如何在 windows 上设置环境变量,请增加以下内容:
JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201
PATH = %PATH%;%JAVA_HOME%
SPARK_HOME = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
HADOOP_HOME = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
PATH=%PATH%;%SPARK_HOME%
如果你不晓得如何在 windows 上增加或编辑环境变量,请遵循以下步骤。
- 关上零碎环境变量窗口,抉择环境变量。
-
在上面的环境变量屏幕上,通过抉择新建选项,增加
SPARK_HOME
、HADOOP_HOME
、JAVA_HOME
。 - 这将关上新用户变量窗口,你能够在这里输出变量名称和值。
-
当初编辑 PATH 变量
-
通过抉择 “ 新建 “ 选项增加 Spark、Java 和 Hadoop 的 bin 地位。
在 Windows 上应用 winutils.exe 的 Spark
许多初学者认为 Apache Spark 须要装置 Hadoop 集群能力运行,但事实并非如此,Spark 能够通过应用 S3 在 AWS 上运行,也能够通过应用 blob 存储在 Azure 上运行,无需 Hadoop 和 HDFS 等。
要在 windows 上运行 Apache Spark,你须要 winutils.exe,因为它应用 windows API 在 windows 中应用相似 POSIX 的文件拜访操作。
winutils.exe 使 Spark 可能应用 Windows 特有的服务,包含在 Windows 环境下运行 shell 命令。
为 Hadoop 2.7 下载 winutils.exe,并将其复制到 %SPARK_HOME%\bin 文件夹。Winutils 对于每个 Hadoop 版本都是不同的,因而,依据你的 Spark 与 Hadoop 的发行版,从 https://github.com/stevelough…,下载正确的版本。
Apache Spark shell
spark-shell 是 Apache Spark 发行版附带的 CLI 工具,关上命令提示符,进入 cd %SPARK_HOME%/bin,输出 spark-shell 命令,运行 Apache Spark shell。你应该看到如下内容(疏忽你在最初看到的正告):
Spark-shell 还创立了一个 Spark 上下文的 Web UI,默认状况下,它能够从浏览器关上 http://localhost:4041,以拜访 Spark Web UI 来监控您的工作。
在 spark-shell 命令行中,你能够运行任何 Spark 语句,如创立 RDD,取得 Spark 版本等。
这就实现了 Apache Spark 在 Windows 7、10 和任何最新版本的装置。
Windows 上的 Web UI
Apache Spark 提供了一套 Web UI((Jobs, Stages, Tasks, Storage, Environment, Executors, SQL)来监控你的 Spark 应用程序的状态、Spark 集群的资源耗费和 Spark 配置。在 Spark Web UI 上,你能够看到操作是如何执行的。
历史服务器
历史服务器会保留你通过 spark-submit、spark-shell 提交的所有 Spark 应用程序的日志。你能够通过在 spark-defaults.conf 文件中增加以下配置,使 Spark 可能收集日志,conf 文件位于 %SPARK_HOME%/conf
目录。
spark.eventLog.enabled true
spark.history.fs.logDirectory file:///c:/logs/path
设置完上述属性后,通过启动上面的命令启动历史服务器:
$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer
默认状况下,历史服务器采纳 18080 端口进行监听,能够应用 http://localhost:18080/ 从浏览器拜访它。
通过点击每个应用程序 ID,你将在 Spark Web UI 中取得该应用程序的详细信息。
综上所述,曾经学会了如何在 windows 上装置 Apache Spark 并在 spark-shell 中运行样本语句,并学会了如何启动 spark web-UI 和历史服务器。
hi,我是 @编程大 K,善于后端、人工智能、大数据处理的伪全能工程师,在平台输入对于 技术文章、职业倒退和自我晋升 的干货,看到感兴趣的实事热榜也忍不住唠两句嗑。想与你一起提高,能够通过这些答复来意识我呀:
机器学习方面的论文应该在哪找?
计算机互联网「寒冬」是临时趋势还是永恒趋势?
对你影响最深的计算机书籍是哪一本?
Spark 的内存计算 次要体现在 哪些方面?