Spark 常见面试题
Spark on Yarn 两种形式的区别以及工作流程
Spark 内存治理 官网优化这块查看
Spark 作业资源的设置状况 excutor 个数 memory core driver
Shuffle 机制
DataFrame/DataSet 和 RDD 的区别以及编程
数据歪斜
RDD 的五大个性
Spark 作业的执行流程:Count 后续干了什么事件
Spark 中的饮食转换的作用,联合 Scala
Spark 和 MR 的区别
Spark 集群规模
Spark OOM 如何解决
ThriftServer 如何实现 HA
Kafka 整合 Spark 的时候 OFFSET 的治理
Spark Storm Flink 的区别
Spark 应用中遇到过哪些问题,怎么解决,亮点在哪里
正当的算子抉择
Catalyst 的流程