标签: spark
-
SparkSpark优化笔记
所谓的map-side预聚合,说的是在每个节点本地对雷同的key进行一次聚合操作,相似于MapReduce中的…
-
spark-executor-被yarn杀掉的问题
spark的任务,在运行期间executor总是挂掉。刚开始觉得是数据量太大executor内存不够。但是估算…
-
Spark-30发布啦改进SQL弃Python-2更好的兼容ANSI-SQL性能大幅提升
Apache Spark 3.0.0正式发布啦,Apache Spark 3.0是在Spark 2.x的基础上…
-
一文详解Spark-Shuffle
Shuffle一般被翻译成数据混洗,是类MapReduce分布式计算框架独有的机制,也是这类分布式计算框架最重…
-
Spark源码学习内置RPC框架3
TransportClientFactory是创建TransportClient的工厂类。TransportC…
-
基于-Tracing-数据的拓扑关系生成原理
随着互联网架构的流行,越来越多的系统开始走向分布式化、微服务化。如何快速发现和定位分布式系统下的各类性能瓶颈成…
-
Delta-Lake-删除实现
Delta Lake 的 Delete 功能是由 0.3.0 版本引入的,参见这里,对应的 Patch 参见这…
-
Scala并发编程实战-2Lock-锁
synchronized作为内置锁,使用简单,不易出错,然鹅确有相当的局限性,例如,无法从等待获取锁的阻塞中中…
-
spark概念强化
概念 Transformation {代码…} 分类 {代码…} Action {代码…} 辨析 …
-
Scala并发编程实战Monitor与synchronized
Java并发编程最常用和易用的技术莫过于synchronized关键字,而Scala的并发编程之旅也可以从sy…