共计 2646 个字符,预计需要花费 7 分钟才能阅读完成。
你是否有过数据难以入湖的抓狂?
你是否有过流批存储不对立的懊恼?
你是否有过入湖更新时效性跟不上的无奈?
Streaming Lakehouse 首个 Meetup 来啦!
7 月 29 日 | 北京 | 线下
来一场 Streaming Lakehouse 实时数据湖的体验之旅!
本次 Meetup 邀请了来自阿里巴巴、字节跳动的七位技术专家,聚焦大规模 CDC 数据入湖实际、Flink 一站式湖仓一体构建、流式数据湖要害个性以及对立的 RSS 等,全方位解析 Streaming Lakehouse 最前沿的技术,最新的产业实际!Flink、Paimon、Celeborn、Flink CDC、StarRocks 多个开源我的项目汇聚在一起,会碰撞出怎么的火花?敬请期待!
流动亮点
- 超多实用干货 ,本场 Meetup 从入湖 Flink CDC、湖存储 Paimon、计算引擎 Flink、批处理 RSS Celeborn、OLAP 剖析 StarRocks 全面分享 Streaming Lakehouse 的残缺链路,你能够从中获取到为什么要构建 Streaming Lakehouse,如何构建低成本的、准实时的 Streaming Lakehouse,轻松将你的离线数仓实时化!
- 流动模式多样化 ,线下线上同步开启,同城可参加线下 Meetup 面对面交换,异地也可在线观看直播,精彩内容不错过;
- 丰盛周边等你拿 ,报名加入就有机会取得 Flink 社区、Paimon 社区定制的精美周边!
流动议程
嘉宾及议题介绍
议题一|Apache Paimon 实时数据湖: Streaming Lakehouse 的存储底座
■ 演讲简介
目前业界支流数据湖存储我的项目都是面向 Batch 场景设计的,在数据更新解决时效性上无奈满足 Streaming Lakehouse 的需要。Apache Paimon 作为实时数据湖,作为 Streaming Lakehouse 的存储底座,解锁离线数据实时化的场景,带来实时的、低成本的 Lakehouse。
- 数据湖 2023:时机与挑战
- Paimon 实时更新与离线视图
- Paimon 变更日志与场景
- Paimon 生态
- 总结与布局
议题二|基于 Flink CDC 高效构建入湖通道
■ 演讲简介
数据库中寄存的数据是最有业务价值的数据源,如何高效地将这些数据摄取到数据湖中是一个十分有价值的主题。Flink CDC 是实时数据集成框架的开源代表,不仅具备全增量一体化、无锁读取、并发读取、分布式架构等技术劣势,还提供丰盛的 SQL 加工能力,在开源社区中十分受欢迎。Apache Paimon 是从 Flink 社区孵化进去的新兴的数据湖我的项目, 为用户提供高吞吐、低提早的数据摄入、流式订阅以及实时查问能力。当用户围绕 Paimon 构建流式湖仓时,通过 Flink CDC 作为入湖通道,能够极大简化湖仓的构建老本,同时解锁整库同步、Schema Evolution 等高级个性。
议题三|Flink Batch SQL Improvements on Lakehouse
■ 演讲简介
Flink 社区最近几个版本始终在投入比拟大的精力欠缺与改良批处理能力,从而让批处理更快更稳固与更易用。这其中包含反对更多的 API 语法,欠缺数据管理能力。在 QO 层面引入基于浓密树的 Join Reorder 算法,晋升多表 Join 性能;优化 DPP,能够笼罩更多的业务场景。在 QE 层面,通过引入 Adaptive Local HashAgg、Runtime Filter、多算子交融 Codegen 等性能,大幅晋升批处理的性能。在 SQL 服务化方面,Gateway 反对 JDBC Driver,兼容已有作业提交模式,让作业提交更加不便。通过上述工作,Flink 批处理让 Lakehouse 架构更加简略高效、晋升数据处理效率。在本次议题中,我将会介绍这些优化与新个性,以及将来倒退布局。
议题四|字节跳动房产业务基于 Flink&Paimon 的流式数仓实际
■ 演讲简介
字节跳动房产业务是一种典型的交易、事务类型的业务场景,这种业务场景在实时数仓建模中遇到了诸多挑战。本次分享次要介绍字节跳动房产业务基于 Flink & Paimon 构建流式数仓的实践经验,会从业务背景,流批一体数仓架构,实际中遇到的问题和解决方案,借助 Paimon 最终能拿到的收益,以及将来布局几个方面来介绍。
议题五|Apache Celeborn: 让 Spark 和 Flink 更快,更稳,更弹性
■ 演讲简介
Apache Celeborn(Incubating) 是一个高性能,高可用,可伸缩的通用 Shuffle 服务,反对 Spark,Flink 两大支流引擎 (将来将反对 Tez/MR 等更多引擎)。Celeborn 在 阿里及多家知名企业撑持每天数十 P 的生产 Shuffle,晋升稳定性和性能的同时降低成本。本次分享将介绍 Celeborn 的高性能高可用的外围设计,反对多引擎的对立架构,用户案例,以及如何更好的参加社区。
议题六|应用 Paimon + StarRocks 构建湖仓一体数据分析计划
■ 演讲简介
- 介绍目前支流的大数据分析技术计划,以及湖仓一体数据分析计划的劣势
- 介绍如何应用 Paimon + StarRocks 构建湖仓一体数据分析体系
- 介绍应用 StarRocks 剖析 Paimon 表格局的技术原理
- 介绍应用 Paimon + StarRocks 构建实时数仓剖析计划以及 StarRocks 社区在 Paimon 上将来的布局
入手实际|应用 Flink 实时发现最热 GitHub 我的项目
舒适揭示:参加实际环节的同学须要携带电脑!
本次 Meetup 新增入手实际环节,手把手教您玩转实时计算 Flink 版产品。
只需 5 分钟疾速找到 GitHub 上煊赫一时的 TOP 10 我的项目,5000CU* H 云上资源包收费支付,现场实现试验我的项目,更有惊喜礼包相送!
退出 Flink-Learning 训练营 ,开启你的实时计算之旅。
点击链接即刻退出学习:https://developer.aliyun.com/trainingcamp/0bcc1ab57cf841a2af6…
流动详情
工夫:7 月 29 日下午 13:00-18:30
地点: 北京朝阳区望京凯悦酒店
点击链接观看线上直播:https://gdcop.h5.xeknow.com/sl/2bTgeB
扫下方图片参加报名:
点击即刻参加报名
更多内容
流动举荐阿里云基于 Apache Flink 构建的企业级产品 - 实时计算 Flink 版现开启流动:
0 元试用 实时计算 Flink 版(5000CU* 小时,3 个月内)
理解流动详情:https://click.aliyun.com/m/1000372333/