装置Java 8或更高版本
要在windows上装置Apache Spark,你须要Java 8或最新的版本,因而从 Oracle 下载Java版本并装置在你的零碎上。如果你想要OpenJDK,你能够从这里 下载.它。
下载后,双击下载的文件,以便在您的windows零碎上装置它。抉择任何自定义目录或放弃默认地位。
留神:这是以Java 8上装置Apache Spark为例,同样的步骤也实用于Java 11和13版本。
Apache Spark在Windows上的装置
Apache Spark是以压缩的tar/zip文件模式呈现的,因而在Windows上的装置并不艰难,你只须要下载并解压文件。通过拜访Spark下载页面并抉择 “下载Spark(上面截图中的第3点)”中的链接,下载Apache Spark。
如果你想应用不同版本的Spark和Hadoop,从下拉菜单中抉择你想要的版本;第3点上的链接会扭转为所选的版本,并为你提供一个更新的下载链接。
下载后,应用压缩工具解压二进制文件,并将解压后的目录spark-3.0.0-bin-hadoop2.7复制到c:\apps\opt\spark-3.0.0-bin-hadoop2.7。
Spark 环境变量
在windows上装置Java和Apache Spark后,设置JAVA_HOME
、SPARK_HOME
、HADOOP_HOME
和PATH
环境变量。如果你晓得如何在windows上设置环境变量,请增加以下内容:
JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201
PATH = %PATH%;%JAVA_HOME%
SPARK_HOME = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
HADOOP_HOME = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
PATH=%PATH%;%SPARK_HOME%
如果你不晓得如何在windows上增加或编辑环境变量,请遵循以下步骤。
- 关上零碎环境变量窗口,抉择环境变量。
-
在上面的环境变量屏幕上,通过抉择新建选项,增加
SPARK_HOME
、HADOOP_HOME
、JAVA_HOME
。 - 这将关上新用户变量窗口,你能够在这里输出变量名称和值。
-
当初编辑PATH变量
-
通过抉择 “新建 “选项增加Spark、Java和Hadoop的bin地位。
在Windows上应用winutils.exe的Spark
许多初学者认为Apache Spark须要装置Hadoop集群能力运行,但事实并非如此,Spark能够通过应用S3在AWS上运行,也能够通过应用blob存储在Azure上运行,无需Hadoop和HDFS等。
要在windows上运行Apache Spark,你须要winutils.exe,因为它应用windows API在windows中应用相似POSIX的文件拜访操作。
winutils.exe使Spark可能应用Windows特有的服务,包含在Windows环境下运行shell命令。
为Hadoop 2.7下载winutils.exe,并将其复制到%SPARK_HOME%\bin文件夹。Winutils对于每个Hadoop版本都是不同的,因而,依据你的Spark与Hadoop的发行版,从https://github.com/stevelough…,下载正确的版本。
Apache Spark shell
spark-shell是Apache Spark发行版附带的CLI工具,关上命令提示符,进入cd %SPARK_HOME%/bin,输出spark-shell命令,运行Apache Spark shell。你应该看到如下内容(疏忽你在最初看到的正告):
Spark-shell还创立了一个Spark上下文的Web UI,默认状况下,它能够从浏览器关上http://localhost:4041,以拜访Spark Web UI来监控您的工作。
在spark-shell命令行中,你能够运行任何Spark语句,如创立RDD,取得Spark版本等。
这就实现了Apache Spark在Windows 7、10和任何最新版本的装置。
Windows上的Web UI
Apache Spark提供了一套Web UI((Jobs, Stages, Tasks, Storage, Environment, Executors, SQL)来监控你的Spark应用程序的状态、Spark集群的资源耗费和Spark配置。在Spark Web UI上,你能够看到操作是如何执行的。
历史服务器
历史服务器会保留你通过spark-submit、spark-shell提交的所有Spark应用程序的日志。你能够通过在spark-defaults.conf文件中增加以下配置,使Spark可能收集日志,conf文件位于%SPARK_HOME%/conf
目录。
spark.eventLog.enabled true
spark.history.fs.logDirectory file:///c:/logs/path
设置完上述属性后,通过启动上面的命令启动历史服务器:
$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer
默认状况下,历史服务器采纳18080端口进行监听,能够应用http://localhost:18080/ 从浏览器拜访它。
通过点击每个应用程序ID,你将在Spark Web UI中取得该应用程序的详细信息。
综上所述,曾经学会了如何在windows上装置Apache Spark并在spark-shell中运行样本语句,并学会了如何启动spark web-UI和历史服务器。
hi,我是 @编程大K ,善于后端、人工智能、大数据处理的伪全能工程师,在平台输入对于技术文章、职业倒退和自我晋升的干货,看到感兴趣的实事热榜也忍不住唠两句嗑。想与你一起提高,能够通过这些答复来意识我呀:
机器学习方面的论文应该在哪找?
计算机互联网「寒冬」是临时趋势还是永恒趋势?
对你影响最深的计算机书籍是哪一本?
Spark的内存计算 次要体现在 哪些方面?