大数据面试题 | 乐趣区

第一阶段：
1.scala闭包
2.jdk版本
3.mysql版本
4.垃圾回收器 CMS G1 HBASE
笔试部分：

1.给定一个字符串，求最大的回文长度？？？？2.给定两个有序的数组，合并一个有序的数组3.一个有序的数组构建成平衡的二叉树

第二阶段：

1.压缩有哪几种？ 区别 什么场景用2.文件格式有哪几种？ 区别 什么场景用3.HDFS读写流程 output和input对象，谁是读，谁是写4.HDFS的namenode内存生产上如何规划？5.小文件（20M以下） 过多了 什么危害？如何规避 合并，降低namenode内存的压力6.yarn的工作流程7.yarn调度器哪几种？区别是什么 8.yarn的生产上调优参数 调优规划 让你的内存 最大化利用 vcore9.Hive内部表和外部表的区别10.Hive外部表有静态，动态 区别是什么11.Hive的UDF函数，如何永久生效？12.Hive的sort by, order by,cluster by, distributed by各代表什么意思13.sqoop如何增量抽取到Hive， 对应的hive表如何设计14.hbase的rowkey如何设计，请举例？15.hbase的读写流程经过master吗？假如不经过，那么什么流程经过呢？16.hbase的hbck命令有了解吗？哪些故障？哪些命令？17.flume如何抽取数据？记录pos点？ 能支持递归吗？18.flume源代码有没有做过二次开发？19.kafka的ack有哪几种？ 生产选择哪个？20.kafka offset有绝对和相对的说法吗？请解释一下21.kafka offset如何寻找数据 请复述流程22.kafka 生产者和消费者生产上如何做监控？看数据的是否及时消费呢？23.spark数据倾斜的解决方案24.spark代码有没有阅读过25.