锁屏面试题百日百刷,每个工作日保持更新面试题。锁屏面试题app、小程序现已上线,官网地址:https://www.demosoftware.cn。已收录了每日更新的面试题的所有内容,还蕴含特色的解锁屏幕温习面试题、每日编程题目邮件推送等性能。让你在面试中后人一步!接下来的是今日的面试题:
1.简要形容Spark写数据的流程?
1)RDD调用compute办法,进行指定分区的写入
2)CacheManager中调用BlockManager判断数据是否曾经写入,如果未写,则写入3)BlockManager中数据与其余节点同步
4)BlockManager依据存储级别写入指定的存储层
5)BlockManager向主节点汇报存储状态中
2.介绍一下你对Unified Memory Management内存治理模型的了解?
Spark中的内存应用分为两局部:执行(execution)与存储(storage)。执行内存次要用于shuffles、joins、sorts和aggregations,存储内存则用于缓存或者跨节点的外部数据传输。
3.如何了解Spark的动态内存占用机制?
4.列举你理解的序列化办法,并谈谈序列化有什么益处?
1)序列化:将对象转换为字节流,实质也能够了解为将链表的非间断空间转为间断空间存储的数组,能够将数据进行流式传输或者块存储,反序列化就是将字节流转为对象。kyro,Java的serialize等
2)spark中的序列化常见于
· 过程间通信:不同节点的数据传输
· 数据长久化到磁盘
在spark中表演十分重要的角色,序列化和反序列化的水平会影响到数据传输速度,甚至影响集群的传输效率,因而,高效的序列化办法有2点益处:a.晋升数据传输速度,b.晋升数据读写IO效率。
5.常见的数压缩形式,你们生产集群采纳了什么压缩形式,晋升了多少效率?
1)数据压缩,大片间断区域进行数据存储并且存储区域中数据重复性高的情况下,能够应用适当的压缩算法。
数组,对象序列化后都能够应用压缩,数更紧凑,缩小空间开销。常见的压缩形式有snappy,LZO,gz等
2)Hadoop生产环境罕用的是snappy压缩形式(应用压缩,实际上是CPU换IO吞吐量和磁盘空间,所以如果CPU利用率不高,不忙的状况下,能够大大晋升集群解决效率)。snappy压缩比个别20%~30%之间,并且压缩和解压缩效率也十分高(参考数据如下):
(1)GZIP的压缩率最高,然而其实CPU密集型的,对CPU的耗费比其余算法要多,压缩和解压速度也慢;
(2)LZO的压缩率居中,比GZIP要低一些,然而压缩和解压速度显著要比GZIP快很多,解压速度快的更多;
(3)Zippy/Snappy的压缩率最低,而压缩和解压速度要略微比LZO要快一些。
晋升了多少效率能够从2方面答复,1)数据存储节约多少存储,2)工作执行耗费工夫节约了多少,能够举个理论例子开展形容。