spark 关于spark:isEmpty类型的action算子需要cache吗 有的时候,须要判断rdd.isEmpty(),以决定是否须要后续操作。而这个isEmpty办法是个action算子。也就是说如果rdd不为空,须要做后续操作的话,那么这个rdd的创立过程可能就执行了两遍。那么rdd须要cache吗?
spark SparkSpark优化笔记 所谓的map-side预聚合,说的是在每个节点本地对雷同的key进行一次聚合操作,相似于MapReduce中的本地combiner。如应用reduceByKey或aggregateByKey 代替groupByKey
spark spark-executor-被yarn杀掉的问题 spark的任务,在运行期间executor总是挂掉。刚开始觉得是数据量太大executor内存不够。但是估算了数据量,觉得不应该出现内存不够。于是,首先尝试通过jvisualvm观察executor的内存分布:
spark Spark-30发布啦改进SQL弃Python-2更好的兼容ANSI-SQL性能大幅提升 Apache Spark 3.0.0正式发布啦,Apache Spark 3.0是在Spark 2.x的基础上开发的,带来了新的想法和功能。
spark 一文详解Spark-Shuffle Shuffle一般被翻译成数据混洗,是类MapReduce分布式计算框架独有的机制,也是这类分布式计算框架最重要的执行机制。接下来会按照两个层面来谈谈Shuffle机制。分别为:
spark Spark源码学习内置RPC框架3 TransportClientFactory是创建TransportClient的工厂类。TransportContext的createClientFactory方法可以创建TransportClientFactory的实例
无分类 基于-Tracing-数据的拓扑关系生成原理 随着互联网架构的流行,越来越多的系统开始走向分布式化、微服务化。如何快速发现和定位分布式系统下的各类性能瓶颈成为了摆在开发者面前的难题。借助分布式追踪系统的调用链路还原能力,开发者可以完整地了解一次请求的执行过程和详细信息。但要真正分析出系统的性能瓶颈往往还需要链路拓扑、应用依赖分析等工具的支持…
无分类 Delta-Lake-删除实现 Delta Lake 的 Delete 功能是由 0.3.0 版本引入的,参见这里,对应的 Patch 参见这里。在介绍 Apache Spark Delta Lake 实现逻辑之前,我们先来看看如何使用 delete 这个功能。
无分类 Scala并发编程实战-2Lock-锁 synchronized作为内置锁,使用简单,不易出错,然鹅确有相当的局限性,例如,无法从等待获取锁的阻塞中中断,无法设置获取锁的超时。所以JUC提供了另一种更灵活的加锁方式,即Lock。
无分类 spark概念强化 概念 Transformation {代码…} 分类 {代码…} Action {代码…} 辨析 map() VS flatmap() {代码…} map() VS mapPartitions() {代码…} mapPartitions() VS mapPartitionsWithIndex() {代码…} reduce() VS fold() {代码…} 数量 {代码…} 参考 Spark RDD Operations-Transformation & Action with Example