Spark常见面试题

Spark on Yarn 两种形式的区别以及工作流程Spark 内存治理 官网优化这块查看Spark作业资源的设置状况 excutor 个数 memory core driverShuffle 机制DataFrame/DataSet 和 RDD的区别以及编程数据歪斜RDD的五大个性Spark作业的执行流程:Count后续干了什么事件Spark中的饮食转换的作用,联合ScalaSpark和MR的区别Spark集群规模Spark OOM如何解决ThriftServer如何实现HAKafka整合Spark的时候OFFSET的治理Spark Storm Flink 的区别Spark应用中遇到过哪些问题,怎么解决,亮点在哪里正当的算子抉择Catalyst的流程