大数据面试题

41次阅读

共计 750 个字符,预计需要花费 2 分钟才能阅读完成。

第一阶段:
1.scala 闭包
2.jdk 版本
3.mysql 版本
4. 垃圾回收器 CMS G1 HBASE
笔试部分:

1. 给定一个字符串,求最大的回文长度????2. 给定两个有序的数组,合并一个有序的数组
3. 一个有序的数组构建成平衡的二叉树

第二阶段:

1. 压缩有哪几种?区别 什么场景用
2. 文件格式有哪几种?区别 什么场景用
3.HDFS 读写流程 output 和 input 对象,谁是读,谁是写
4.HDFS 的 namenode 内存生产上如何规划?5. 小文件(20M 以下)过多了 什么危害?如何规避 合并,降低 namenode 内存的压力

6.yarn 的工作流程
7.yarn 调度器哪几种?区别是什么 
8.yarn 的生产上调优参数 调优规划 让你的内存 最大化利用 vcore
9.Hive 内部表和外部表的区别

10.Hive 外部表有静态,动态 区别是什么
11.Hive 的 UDF 函数,如何永久生效?12.Hive 的 sort by, order by,cluster by, distributed by 各代表什么意思

13.sqoop 如何增量抽取到 Hive,对应的 hive 表如何设计
14.hbase 的 rowkey 如何设计,请举例?15.hbase 的读写流程经过 master 吗?假如不经过,那么什么流程经过呢?16.hbase 的 hbck 命令有了解吗?哪些故障?哪些命令?17.flume 如何抽取数据?记录 pos 点?能支持递归吗?18.flume 源代码有没有做过二次开发?19.kafka 的 ack 有哪几种?生产选择哪个?20.kafka offset 有绝对和相对的说法吗?请解释一下
21.kafka offset 如何寻找数据 请复述流程
22.kafka 生产者和消费者生产上如何做监控?看数据的是否及时消费呢?23.spark 数据倾斜的解决方案
24.spark 代码有没有阅读过
25.






正文完
 0