为了节省磁盘空间,文件的存储往往需要压缩,有的需要压缩比大,有的需要压缩速度快。而对于一套计算的结果存储,如多个 MapReduce 之间,需要能支持分片的压缩方式。lzop 就是个可以支持分片的压缩方式,非常适合用于多个 MapReduce 之间的计算中间结果存储。
一、在 Hadoop 上安装 lzop 与在 hive 上的使用
https://www.iteblog.com/archi…
二、添加索引以支持分片
lzop 默认是不支持分片的,需要添加索引。
https://www.iteblog.com/archi…