NSpark Shell是Spark提供的一个弱小的交互剖析数据的工具，咱们间接用$SPARK_HOME/bin/spark-shell命令来Spark Shell启动，如果在bin目录下，能够间接用spark-shell。
进入后，能够看到曾经初始化了sc和spark。

参数

Spark Shell还反对其余参数，比方master、executor-memory等。咱们能够通过$SPARK_HOME/bin/spark-shell --help来查看

master

master的值包含spark、mesos、yarn、k8s以及local，咱们下面没有指定master，默认是local的，从上图能够看进去。

模式	形容	格局
spark	在spark的stanalone集群运行，也就是上一篇搭建的高可用集群	spark://host:port
mesos	运行在mesos资源管理器上	mesos://host:port
yarn	运行在yarn资源管理器上
k8s	运行在k8s集群上	https://host:port
local	本地模式，本地运行	local：1个线程；local[*]；不限线程，local[N]:N个线程

比方咱们运行在咱们搭建的spark集群上，能够看到sc前面的master就是咱们的spark集群。

[bigdata@bigdata01 test]$ $SPARK_HOME/bin/spark-shell \
> --master spark://bigdata01:7077,bigdata03:7077

其余

executor-memory：executor的内存，默认1G
total-executor-cores：standalone模式才有的参数，定义所有executors的cpu数。

实例

从hdfs中读取一个文件，并统计这个文件多少行，以及第一行的内容等。
文件test.txt内容：

aaaaa
bbbbb
ccccc
ddddd
eeeee
fffff

上传到hdfs

[bigdata@bigdata01 test]$ hadoop fs -put /home/bigdata/test/test.txt  /dajun/test

进入spark shell

[bigdata@bigdata01 test]$ $SPARK_HOME/bin/spark-shell --master spark://bigdata01:7077,bigdata03:7077 --executor-memory 512M --total-executor-cores 2

在spark shell中操作

# 读取文件
scala> val textFile = spark.read.textFile("/dajun/test/test.txt")
textFile: org.apache.spark.sql.Dataset[String] = [value: string]
# 统计数量
scala> textFile.count()
res0: Long = 6                                                                  
# 获取第一行
scala> textFile.first()
res1: String = aaaaa
# 过滤
scala> textFile.filter(line => line.contains("a")).count()
res2: Long = 1

关于spark:Spark-Spark-Shell使用

参数

master

其余

实例

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于spark:Spark-Spark-Shell使用

参数

master

其余

实例

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复