分类: spark
-
SparkSpark优化笔记
所谓的map-side预聚合,说的是在每个节点本地对雷同的key进行一次聚合操作,相似于MapReduce中的…
-
spark-executor-被yarn杀掉的问题
spark的任务,在运行期间executor总是挂掉。刚开始觉得是数据量太大executor内存不够。但是估算…
-
Spark-30发布啦改进SQL弃Python-2更好的兼容ANSI-SQL性能大幅提升
Apache Spark 3.0.0正式发布啦,Apache Spark 3.0是在Spark 2.x的基础上…
-
一文详解Spark-Shuffle
Shuffle一般被翻译成数据混洗,是类MapReduce分布式计算框架独有的机制,也是这类分布式计算框架最重…
-
Spark源码学习内置RPC框架3
TransportClientFactory是创建TransportClient的工厂类。TransportC…