共计 471 个字符,预计需要花费 2 分钟才能阅读完成。
Spark 架构:
关键名词:
master
worker
executor
task
driver
Spark 集群启动之后,是主从式架构(master–worker),95% 的大数据架构都是主从式
hadoop-yarn:
Yarn:
主节点:resourcemanager 管理整个集群的资源
从节点:nodemanager 管理每个服务器的资源
sparkcontext 就是 sparkcore 的程序入口
flatmap = map + flatten
Spark 集群:
打包 Spark 程序:
Spark 任务提交:
RDD 的创建:Sparkcore:
transformation 和 action 原理:
transformation:map flatmap 相当于是创建新的 RDD
action:savaastextfile,count
所有 transformation 操作具有 lazy 特性,在遇到 action 操作之前都不会运行的
Spark 等到 action 出现,再执行 transformation 其实是 Spark 自身在做一个最佳的调优,用最高效的顺序来执行所有的 transformation(优化)
正文完