关于spark:Spark优化之小文件是否需要合并

咱们晓得，大部分Spark计算都是在内存中实现的，所以Spark的瓶颈个别来自于集群(standalone, yarn, mesos, k8s)的资源缓和，CPU，网络带宽，内存。Spark的性能，想要它快，就得充分利用好系统资源，尤其是内存和CPU。有时候咱们也须要做一些优化调整来缩小内存占用，例如将小文件进行合并的操作。

一、问题景象

咱们有一个15万条总数据量133MB的表，应用SELECT * FROM bi.dwd_tbl_conf_info全表查问耗时3min，另外一个500万条总数据量6.3G的表ods_tbl_conf_detail，查问耗时23秒。两张表均为列式存储的表。

大表查问快，而小表反而查问慢了，为什么会产生如此奇怪的景象呢？

二、问题探询

数据量6.3G的表查问耗时23秒，反而数据量133MB的小表查问耗时3min，这十分奇怪。咱们收集了对应的建表语句，发现两者没有太大的差别，大部分为String，两表的列数也相差不大。

CREATE TABLE IF NOT EXISTS  `bi`.`dwd_tbl_conf_info`  (  `corp_id` STRING COMMENT '',  `dept_uuid` STRING COMMENT '',  `user_id` STRING COMMENT '',  `user_name` STRING COMMENT '',  `uuid` STRING COMMENT '',  `dtime` DATE COMMENT '',  `slice_number` INT COMMENT '',  `attendee_count` INT COMMENT '',  `mr_id` STRING COMMENT '',  `mr_pkg_id` STRING COMMENT '',  `mr_parties` INT COMMENT '',  `is_mr` TINYINT COMMENT 'R',  `is_live_conf` TINYINT COMMENT '')

CREATE TABLE IF NOT EXISTS `bi`.`ods_tbl_conf_detail` (    `id` string,    `conf_uuid` string,    `conf_id` string,    `name` string,    `number` string,    `device_type` string,    `j_time` bigint,    `l_time` bigint,    `media_type` string,    `dept_name` string,    `UPDATETIME` bigint,    `CREATETIME` bigint,    `user_id` string,    `USERAGENT` string,    `corp_id` string,    `account` string  )

因为两张表均为很简略的SELECT查问操作，无任何简单的聚合join操作，也无UDF相干的操作，所以根本确认查问慢的应该产生的读表的时候，咱们将狐疑的点放到了读表操作上。通过查问两个查问语句的DAG和工作散布，咱们发现了不一样的中央。

查问快的表，查问时总共有68个工作，任务分配比方平均，均匀7~9s左右，而查问慢的表，查问时总共1160个工作，均匀也是9s左右。如下图所示：

至此，咱们根本发现了猫腻所在。大表6.3G但文件个数小，只有68个，所以很快跑完了。而小表尽管只有133MB，但文件个数特地多，导致产生的工作特地多，而因为单个工作自身比拟快，大部分工夫破费在任务调度上，导致工作耗时较长。

那如何能力解决小表查问慢的问题呢？

三、业务调优

那当初摆在咱们背后就存在当初问题：

1、为什么小表会产生这么小文件

2、曾经产生的这么小文件如何合并

带着这两个问题，咱们和业务的开发人员聊了一个发现小表是业务开发人员从原始数据表中，依照不同的工夫切片查问并做数据荡涤后插入到小表中的，而因为工夫切片切的比拟小，导致这样的插入次数特地多，从而产生了大量的小文件。

那么咱们须要解决的问题就是2个，如何能力把这些历史的小文件进行合并以及如何能力保障后续的业务流程中不再产生小文件，咱们领导业务开发人员做了以下优化：

1）应用INSERT OVERWRITE bi.dwd_tbl_conf_info SELECT * FROM bi.dwd_tbl_conf_info合并下历史的数据。因为DLI做了数据一致性爱护，OVERWRITE期间不影响原有数据的读取和查问，OVERWRITE之后就会应用新的合并后的数据。合并后全表查问由原来的3min缩短到9s内实现。

2）原有表批改为分区表，插入时不同工夫放入到不同分区，查问时只查问须要的时间段内的分区数据，进一步减小读取数据量。

点击关注，第一工夫理解华为云陈腐技术~