关于面试:互联网一线大厂OPPO大数据技术岗面试题汇总

OPPO 面试题

学长 1
OPPO - 实时处理工程师。一面试官陈泉，他拿了多集体的简历，边翻边问。

1）技术局部

（1）SparkStreaming 生产形式及区别，Spark 读取 HDFS 的数据流程

（2）Kafka 高性能

（3）Hive 调优，数据歪斜

（4）Zookeeper 怎么防止脑裂，什么是脑裂。

（5）Redis 的根本类型，并介绍一下利用场景

（6）最初会问一些 Linux 常用命令，比方怎么查过程，查 IO 运行内存等。还真有人问啊

2）我的项目局部

（1）Hive 的分层设计

（2）还有一些 Flume 和 Kafka 的问题，为什么要把离线和实时搞在一起，能够做成两套零碎。

学长 2
（1）介绍你做的所有我的项目

（2）在我的项目中你负责什么

（3）数仓的数据量是多少

（4）MapReduce 的 Shuffle 过程

（5）Spark 与 Flink 的区别

（6）平时会本人去学一些技术吗

（7）你们公司的大数据组的人员配置

（8）你为什么到职

（9）工作中遇到哪些艰难

（10）怎么应用 Redis 实现分布式锁

（11）Zookeeper 的 HA 原理？

（12）两个业务有关联，某个业务的数据量有可能暴增解体，怎么保障另外的业务数据不受影响？

（13）MapReduce 怎么去实现 Hive 中的 mapjoin?

（14）SparkStreaming 中 Kafka 的 offset 保留到 MySQL 中去实现的精准一次性生产，如果业务逻辑解决完，在提交 offset 时程序解体，解决完的数据怎么解决？

学长 3
（1）讲一讲什么是 CAP 法令？Zookeeper 合乎了这个法令的哪两个？

（2）你们的 Flink 怎么提交的？应用的 per-job 模式吗？为什么应用 Yarn-Session 的模式？有什么益处？

（3）讲一讲 Flink 的分界线对齐原理，有什么作用？

（4）理解过 Flink 的两阶段提交策略吗？讲讲具体过程。如果第一阶段宕机了会怎么办？第二阶段呢？

（5）如果 Spark 在跑工作的途中，Driver 间接挂掉了，然而 Executor 还在持续跑，你该如何解决这个问题？

（6）如何查看 Linux 中线程的内存、CPU 占用、磁盘的耗费等？具体的参数讲一下

（7）讲讲 HFile 在 HDFS 中存储的具体格局

（8）讲一讲 Spark 和 Flink 的 Checkpoint 机制异同

关键词：大数据培训