关于存储:活动预约|93-Lakehouse-Meetup

41次阅读

共计 1245 个字符,预计需要花费 4 分钟才能阅读完成。

简介: 9 月 3 日下午 13:30 开始,一起探讨数据湖仓解决方案。

9 月 3 日下午 13:30,飞天 club 与 StreamNative 联结举办 Lakehouse Meetup,邀请阿里巴巴、StreamNative 的 4 位技术专家一起探讨数据湖仓解决方案。具体议程如下:

01

毕岩(寻径)| 阿里巴巴技术专家

《基于数据湖格局构建数据湖仓架构》

  • 解析数据湖仓架构要害个性,并简述三个数据湖格局。
  • 联合 Delta Lake 和 Hudi,分享阿里云 EMR 在经典数仓场景的应用案例。
  • 最初介绍阿里云 EMR+DLF 提供的整体数据湖仓解决方案。

02

陈航 | StreamNative 高级工程师

《APACHE PULSAR 的湖仓一体计划:PULSAR 的 LAKEHOUSE 分层存储集成详解》

Apache Pulsar 是一种用于缓存数据并在不同零碎之间解耦的音讯总线。为了反对长期的主题数据存储,咱们引入了分层存储,将冷数据卸载到分层存储中,例如 GCS、S3、HDFS 等。然而,以后卸载的数据是由 Pulsar 治理的非凋谢格局数据,是原始的数据格式,且只有 Pulsar 能够拜访数据。因而很难将其与其余大数据组件集成,例如 Presto、Flink SQL 和 Spark SQL。为了解决这个问题,咱们引入了 Lakehouse 来治理卸载数据,并与以后的主题冷数据卸载机制集成。咱们能够应用 Lakehouse 提供的所有性能,例如事务反对、Schema 强制和 BI 反对等。咱们会依据数据地位从 BookKeeper 或分层存储中读取数据,进行流数据读取。因为 Lakehouse 的凋谢存储格局,咱们能够反对 Lakehouse 所维持的各种生态系统读取数据。为了反对流卸载并使卸载机制更具可扩展性,咱们引入了按 reader 卸载机制来从主题中读取数据并写入分层存储。此外,咱们还能够通过 offloader 提供压缩服务后端,并将主题作为表。键的每个更新操作都被转换为表的 upsert 操作。

03

陈玉兆(玉兆)| 阿里巴巴技术专家

《Apache Hudi 实时湖仓解决方案》

  • 基于 Hudi 的数仓解决方案
  • Hudi 的外围场景
  • 应用 Hudi 构建 Pulsar 分级存储
  • 近期 Roadmap

04

张勇 | StreamNative 软件工程师

《整合 PULSAR 和 LAKEHOUSE 数据:应用 CONNECTOR 将 PULSAR TOPIC 中的数据 SINK 到 LAKEHOUSE STORAGE》

咱们可能会应用不同的零碎来解决不同利用场景中的流数据,在这些零碎间整合数据可能会存在问题。本演讲将聚焦于 Lakehouse Connector,探讨如何应用此工具将 Pulsar Topic 中的数据 Sink 至 Lakehouse。

版权申明: 本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

正文完
 0