spark - 第15页 - 乐趣区

spark 关于spark:isEmpty类型的action算子需要cache吗

有的时候，须要判断rdd.isEmpty()，以决定是否须要后续操作。而这个isEmpty办法是个action算子。也就是说如果rdd不为空，须要做后续操作的话，那么这个rdd的创立过程可能就执行了两遍。那么rdd须要cache吗？

所谓的map-side预聚合，说的是在每个节点本地对雷同的key进行一次聚合操作，相似于MapReduce中的本地combiner。如应用reduceByKey或aggregateByKey 代替groupByKey

spark的任务，在运行期间executor总是挂掉。刚开始觉得是数据量太大executor内存不够。但是估算了数据量，觉得不应该出现内存不够。于是，首先尝试通过jvisualvm观察executor的内存分布：

Apache Spark 3.0.0正式发布啦，Apache Spark 3.0是在Spark 2.x的基础上开发的，带来了新的想法和功能。

Shuffle一般被翻译成数据混洗，是类MapReduce分布式计算框架独有的机制，也是这类分布式计算框架最重要的执行机制。接下来会按照两个层面来谈谈Shuffle机制。分别为：

TransportClientFactory是创建TransportClient的工厂类。TransportContext的createClientFactory方法可以创建TransportClientFactory的实例