关于hbase:Apache-Kylin-400-正式发布

43次阅读

共计 3729 个字符,预计需要花费 10 分钟才能阅读完成。

Apache Kylin 社区于日前发表:Apache Kylin 4.0.0 正式公布!欢送大家下载应用。

Apache Kylin 是行业当先的开源分布式的剖析型数据仓库,提供 Hadoop/Spark 之上的 SQL 查问接口及多维分析 (OLAP) 能力,反对对超大规模数据进行亚秒级查问,已被 eBay、腾讯、美团、滴滴、汽车之家、贝壳找房、OLX 团体等寰球超过 1500 家企业采纳。

1. Release Notes

Apache Kylin 4.0.0 是 Kylin 3(HBase Storage)版本后的一次重大版本更新,Kylin 4 应用 Parquet 这种真正的列式存储来代替 HBase 存储,从而晋升文件扫描性能;同时,Kylin 4 从新实现了基于 Spark 的构建引擎和查问引擎,使得计算和存储的拆散变为可能,更加适应云原生的技术趋势。

Kylin 4.0.0 是继 4.0.0-alpha、4.0.0-beta 之后 Kylin 4(Parquet Storage)的第一个正式版本,这次公布绝对上次公布退出了构建性能优化、查问性能优化、Spark 3 反对、元数据降级工具等若干重要个性。此次公布共增加了 32 个新性能和性能加强,修复了 10 个问题和缺点等,详情请拜访:https://kylin.apache.org/docs… 

在去 Hadoop 迈向云原生的过程中,Apache Kylin 也做了踊跃的尝试,通过应用对象存储代替 HDFS,应用 Spark Standalone 代替 Yarn,来逐步升高 Kylin 的学习老本和保护难度,从而打造成为一个简化和对立的,领有高性能和低 TCO 的 OLAP 平台。你能够通过以下文档来理解应用过程:https://kylin.apache.org/docs… 

2. 重要更新

[KYLIN-4925] – Use Spark 3 as build and query engine for Kylin 4

因为 Spark 2 行将完结其生命周期,Kylin 4.0 除了反对 Spark 2.4.7 作为构建和查问的引擎,也反对 Spark 3.1.1,从而能够利用到 Spark 3 在解决数据歪斜问题上的一些高级个性。对于 Spark 3 的反对,目前尚处于 experimental feature 阶段,欢送大家应用和提出反馈。

[KYLIN-4966] – Refresh the existing segment according to the new cuboid list in kylin4

Kylin 4.0.0 中,因为一些问题目前还不反对 Cube Planner 第二阶段。为了补充 Cube 剪枝的能力,咱们开发出能够动静减少和删除 cuboid 的个性,这个个性容许用户在 Cube Planner 第一阶段的剪枝优化根底下,依据本人查问历史,手动减少未被构建然而是罕用的 cuboid。更新后的 cuboid 列表保留在元数据 CubeInstance 的 cuboid_bytes 字段中。理解更多开发背景和应用形式请参考:https://cwiki.apache.org/conf…

[KYLIN-4945] – Repartition encoded dataset to avoid data skew caused by a single column

在新的的构建工作中,Apache Kylin 应用 Spark 进行全局字典的构建,你能够通过下方链接来理解它的实现过程:https://cwiki.apache.org/conf…  

在构建过程中 repartition 算子容易呈现数据歪斜的状况,重大时会极大影响构建速度,所以咱们对歪斜数据设计了检测和非凡解决步骤,详情能够拜访:https://issues.apache.org/jir… 

[KYLIN-4923] – CubeMigration Tools support migrate meta from 2.x/3.x cluster to 4.0 cluster

为了反对一些用户从 Kylin 2/3 降级到 Kylin 4.0,咱们须要实现元数据的降级和转换,联合社区用户的降级实际,Kylin 4.0.0 中基于 Cube Migration Tool 实现了元数据降级工具。对于元数据降级工具的应用能够参考:https://cwiki.apache.org/conf… 

其余重要更新 

[KYLIN-5019] – Avoid building global dictionary from all data of fact table each time

[KYLIN-4887] – Segment pruner support string type partition col in spark query engine

[KYLIN-4894] – Upgrade Apache Spark version to 2.4.7

[KYLIN-4903] – cache parent datasource to accelerate next layer’s cuboid building

[KYLIN-4936] – Exactly aggregation can’t transform to project

[KYLIN-5027] – Add the config of whether to build base cuboid in kylin4

[KYLIN-4897] – Add table snapshot and global dictionary cleaning in StorageCleanupJob

3. 下载

下载 Apache Kylin 4.0.0 源代码及二进制安装包,请拜访下载页面:

https://kylin.apache.org/cn/d… 

Kylin 4.0.0 别离为 Spark 2.4.7 和 Spark 3.1.1 两个 Spark 次要版本提供了实用的二进制包。咱们别离在多个风行的 Hadoop 环境进行了兼容性验证测试,大家能够拜访这篇 wiki 理解测试环境信息以及咱们在测试过程中遇到的问题和解决办法:

https://cwiki.apache.org/conf…

4. 降级

从 Kylin 2/3 降级到 Kylin 4.0.0 请参考此文档:

https://kylin.apache.org/docs…

因为存储层产生很大变动,不再应用 HBase,所以从 Kylin 2/3 降级至 Apache Kylin 4 版本不再兼容之前的预计算生成的 Cube 数据,另外少部分元数据(例如引擎类型、度量类型等)也存在肯定水平的不兼容,用户能够采纳前文所说的元数据降级工具(KYLIN-4923)进行迁徙,而后进行 Cube 从新构建。欢送大家拜访 wiki 来理解一些注意事项:

https://cwiki.apache.org/conf…

5. Docker 体验

以后 Kylin 4.0.0 的 Docker 容器曾经公布,用户无需装置 Hadoop,能够通过以下命令来在笔记本上体验 Kylin 4:

docker run -d \
-m 8G \
-p 7070:7070 \
-p 8088:8088 \
-p 50070:50070 \
-p 8032:8032 \
-p 8042:8042 \
-p 2181:2181 \
apachekylin/apache-kylin-standalone:4.0.0

* 留神:MAC Docker Desktop 用户,请将 Docker Desktop 中 Resource 的内存至多设置为 8 GB 以及 6 core,以保障能流畅运行 Kylin Standalone on Docker。

6. 反馈

如果您遇到疑难或问题,请发送邮件至 Apache Kylin user 或 dev 邮件列表:

user@kylin.apache.org
dev@kylin.apache.org

* 留神:该邮件列表须要订阅能力应用。如未订阅该邮件列表,请先发送邮件至 user-subscribe@kylin.apache.org 或 dev-subscribe@kylin.apache.org,并回复确认实现订阅。

7. 社区贡献者

感激所有参加 Kylin 4.0.0 版本设计、开发、测试、探讨的社区贡献者们:

Xiaoxiang Yu, Yaqian Zhang, Zhichao Zhang, RupengWang, kaiqi.xue, mingming.ge, Yongheng.Liu, Feng Zhu, Sun BiaoBiao, Tengting Xu, Congling Xia, harveyyue, JasonLee, Jiatao Tao, JiangYang, Lei Zhu, Linghui Zeng, nichunen, Pan Wang,  Sean-Gu, ShengJun Zheng, tianhui, Yangmin Luo, Yifei.Wu, yiming.xu

对于 Kylin 4.0 的应用架构、案例,最佳实际,欢送拜访咱们的官网技术博客、微信公众号和 B 站系列视频来理解更多信息:

https://kylin.apache.org/blog…

https://kylin.apache.org/cn_b… 

举荐浏览

有赞出品|降级 Kylin 4 最强攻略!

Kylin 4 最新性能预览 + 优化实际领先看!!

全网第一份 Kylin 4.0 性能调优指南!

去 HBase,Kylin on Parquet 性能体现如何?

Kylin on Parquet 介绍和疾速上手

正文完
 0