关于后端:在Windows上的安装-Spark - 乐趣区

装置Java 8或更高版本

要在windows上装置Apache Spark，你须要Java 8或最新的版本，因而从 Oracle 下载Java版本并装置在你的零碎上。如果你想要OpenJDK，你能够从这里下载.它。

下载后，双击下载的文件，以便在您的windows零碎上装置它。抉择任何自定义目录或放弃默认地位。

留神：这是以Java 8上装置Apache Spark为例，同样的步骤也实用于Java 11和13版本。

Apache Spark在Windows上的装置

Apache Spark是以压缩的tar/zip文件模式呈现的，因而在Windows上的装置并不艰难，你只须要下载并解压文件。通过拜访Spark下载页面并抉择 “下载Spark（上面截图中的第3点）”中的链接，下载Apache Spark。

如果你想应用不同版本的Spark和Hadoop，从下拉菜单中抉择你想要的版本；第3点上的链接会扭转为所选的版本，并为你提供一个更新的下载链接。

下载后，应用压缩工具解压二进制文件，并将解压后的目录spark-3.0.0-bin-hadoop2.7复制到c:\apps\opt\spark-3.0.0-bin-hadoop2.7。

Spark 环境变量

在windows上装置Java和Apache Spark后，设置JAVA_HOME、SPARK_HOME、HADOOP_HOME和PATH环境变量。如果你晓得如何在windows上设置环境变量，请增加以下内容：

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201
PATH = %PATH%;%JAVA_HOME%

SPARK_HOME  = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
HADOOP_HOME = C:\apps\opt\spark-3.0.0-bin-hadoop2.7
PATH=%PATH%;%SPARK_HOME%

如果你不晓得如何在windows上增加或编辑环境变量，请遵循以下步骤。

关上零碎环境变量窗口，抉择环境变量。
在上面的环境变量屏幕上，通过抉择新建选项，增加SPARK_HOME、HADOOP_HOME、JAVA_HOME。
这将关上新用户变量窗口，你能够在这里输出变量名称和值。
当初编辑PATH变量
通过抉择 “新建 “选项增加Spark、Java和Hadoop的bin地位。

在Windows上应用winutils.exe的Spark

许多初学者认为Apache Spark须要装置Hadoop集群能力运行，但事实并非如此，Spark能够通过应用S3在AWS上运行，也能够通过应用blob存储在Azure上运行，无需Hadoop和HDFS等。

要在windows上运行Apache Spark，你须要winutils.exe，因为它应用windows API在windows中应用相似POSIX的文件拜访操作。

winutils.exe使Spark可能应用Windows特有的服务，包含在Windows环境下运行shell命令。

为Hadoop 2.7下载winutils.exe，并将其复制到%SPARK_HOME%\bin文件夹。Winutils对于每个Hadoop版本都是不同的，因而，依据你的Spark与Hadoop的发行版，从https://github.com/stevelough…，下载正确的版本。

Apache Spark shell

spark-shell是Apache Spark发行版附带的CLI工具，关上命令提示符，进入cd %SPARK_HOME%/bin，输出spark-shell命令，运行Apache Spark shell。你应该看到如下内容（疏忽你在最初看到的正告）：

Spark-shell还创立了一个Spark上下文的Web UI，默认状况下，它能够从浏览器关上http://localhost:4041，以拜访Spark Web UI来监控您的工作。

在spark-shell命令行中，你能够运行任何Spark语句，如创立RDD，取得Spark版本等。

这就实现了Apache Spark在Windows 7、10和任何最新版本的装置。

Windows上的Web UI

Apache Spark提供了一套Web UI（(Jobs, Stages, Tasks, Storage, Environment, Executors, SQL）来监控你的Spark应用程序的状态、Spark集群的资源耗费和Spark配置。在Spark Web UI上，你能够看到操作是如何执行的。

历史服务器

历史服务器会保留你通过spark-submit、spark-shell提交的所有Spark应用程序的日志。你能够通过在spark-defaults.conf文件中增加以下配置，使Spark可能收集日志，conf文件位于%SPARK_HOME%/conf目录。

spark.eventLog.enabled true
spark.history.fs.logDirectory file:///c:/logs/path

设置完上述属性后，通过启动上面的命令启动历史服务器:

$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer

默认状况下，历史服务器采纳18080端口进行监听，能够应用http://localhost:18080/ 从浏览器拜访它。

通过点击每个应用程序ID，你将在Spark Web UI中取得该应用程序的详细信息。

综上所述，曾经学会了如何在windows上装置Apache Spark并在spark-shell中运行样本语句，并学会了如何启动spark web-UI和历史服务器。
hi，我是 @编程大K ，善于后端、人工智能、大数据处理的伪全能工程师，在平台输入对于技术文章、职业倒退和自我晋升的干货，看到感兴趣的实事热榜也忍不住唠两句嗑。想与你一起提高，能够通过这些答复来意识我呀：

机器学习方面的论文应该在哪找？

计算机互联网「寒冬」是临时趋势还是永恒趋势？

对你影响最深的计算机书籍是哪一本？

Spark的内存计算次要体现在哪些方面？