关于面试:互联网一线大厂OPPO大数据技术岗面试题汇总

36次阅读

共计 942 个字符,预计需要花费 3 分钟才能阅读完成。

OPPO 面试题

学长 1
OPPO - 实时处理工程师。一面试官陈泉,他拿了多集体的简历,边翻边问。

1)技术局部

(1)SparkStreaming 生产形式及区别,Spark 读取 HDFS 的数据流程

(2)Kafka 高性能

(3)Hive 调优,数据歪斜

(4)Zookeeper 怎么防止脑裂,什么是脑裂。

(5)Redis 的根本类型,并介绍一下利用场景

(6)最初会问一些 Linux 常用命令,比方怎么查过程,查 IO 运行内存等。还真有人问啊

2)我的项目局部

(1)Hive 的分层设计

(2)还有一些 Flume 和 Kafka 的问题,为什么要把离线和实时搞在一起,能够做成两套零碎。

学长 2
(1)介绍你做的所有我的项目

(2)在我的项目中你负责什么

(3)数仓的数据量是多少

(4)MapReduce 的 Shuffle 过程

(5)Spark 与 Flink 的区别

(6)平时会本人去学一些技术吗

(7)你们公司的大数据组的人员配置

(8)你为什么到职

(9)工作中遇到哪些艰难

(10)怎么应用 Redis 实现分布式锁

(11)Zookeeper 的 HA 原理?

(12)两个业务有关联,某个业务的数据量有可能暴增解体,怎么保障另外的业务数据不受影响?

(13)MapReduce 怎么去实现 Hive 中的 mapjoin?

(14)SparkStreaming 中 Kafka 的 offset 保留到 MySQL 中去实现的精准一次性生产,如果业务逻辑解决完,在提交 offset 时程序解体,解决完的数据怎么解决?

学长 3
(1)讲一讲什么是 CAP 法令?Zookeeper 合乎了这个法令的哪两个?

(2)你们的 Flink 怎么提交的?应用的 per-job 模式吗?为什么应用 Yarn-Session 的模式?有什么益处?

(3)讲一讲 Flink 的分界线对齐原理,有什么作用?

(4)理解过 Flink 的两阶段提交策略吗?讲讲具体过程。如果第一阶段宕机了会怎么办?第二阶段呢?

(5)如果 Spark 在跑工作的途中,Driver 间接挂掉了,然而 Executor 还在持续跑,你该如何解决这个问题?

(6)如何查看 Linux 中线程的内存、CPU 占用、磁盘的耗费等?具体的参数讲一下

(7)讲讲 HFile 在 HDFS 中存储的具体格局

(8)讲一讲 Spark 和 Flink 的 Checkpoint 机制异同

关键词:大数据培训

正文完
 0