第一阶段:
1.scala闭包
2.jdk版本
3.mysql版本
4.垃圾回收器 CMS G1 HBASE
笔试部分:
1.给定一个字符串,求最大的回文长度????2.给定两个有序的数组,合并一个有序的数组3.一个有序的数组构建成平衡的二叉树
第二阶段:
1.压缩有哪几种? 区别 什么场景用2.文件格式有哪几种? 区别 什么场景用3.HDFS读写流程 output和input对象,谁是读,谁是写4.HDFS的namenode内存生产上如何规划?5.小文件(20M以下) 过多了 什么危害?如何规避 合并,降低namenode内存的压力6.yarn的工作流程7.yarn调度器哪几种?区别是什么 8.yarn的生产上调优参数 调优规划 让你的内存 最大化利用 vcore9.Hive内部表和外部表的区别10.Hive外部表有静态,动态 区别是什么11.Hive的UDF函数,如何永久生效?12.Hive的sort by, order by,cluster by, distributed by各代表什么意思13.sqoop如何增量抽取到Hive, 对应的hive表如何设计14.hbase的rowkey如何设计,请举例?15.hbase的读写流程经过master吗?假如不经过,那么什么流程经过呢?16.hbase的hbck命令有了解吗?哪些故障?哪些命令?17.flume如何抽取数据?记录pos点? 能支持递归吗?18.flume源代码有没有做过二次开发?19.kafka的ack有哪几种? 生产选择哪个?20.kafka offset有绝对和相对的说法吗?请解释一下21.kafka offset如何寻找数据 请复述流程22.kafka 生产者和消费者生产上如何做监控?看数据的是否及时消费呢?23.spark数据倾斜的解决方案24.spark代码有没有阅读过25.