乐趣区

关于程序员:在-CDP中使用Iceberg-为数据湖仓增压

咱们很快乐地发表在 Cloudera 数据平台 (CDP) 中全面推出 Apache Iceberg。Iceberg 是 100% 凋谢的表格格局,由 Apache Software Foundation 开发,帮忙用户防止供应商锁定。明天的个别可用性布告涵盖了在 Cloudera 数据平台 (CDP) 中的要害数据服务中运行的 Iceberg,包含 Cloudera 数据仓库 (CDW)、Cloudera 数据工程 (CDE) 和 Cloudera 机器学习 (CML))。这些工具使分析师和数据科学家可能通过他们抉择的工具和剖析引擎轻松地就雷同的数据进行合作。作为 CDP 的一部分,公司无需付出任何致力即可取得 Iceberg 的益处。不再有锁定、不必要的数据转换或跨工具和云的数据挪动,只是为了从数据中提取洞察力。
作为第一个提供凋谢数据湖仓的混合数据平台,CDP 反对对跨多个云和本地的云原生对象存储中的流数据和存储数据进行 PB 级的多功能剖析。这使咱们的客户能够自由选择他们喜爱的剖析工具。凭借 Cloudera 对混合数据的愿景,采纳凋谢数据湖仓的企业能够轻松地在本地环境和任何公共云之间取得应用程序互操作性和可移植性,而无需放心数据扩大。借助从一开始就内置在 CDP 中的共享数据体验 (SDX),客户能够从所有数据的通用元数据、安全性和治理模型中受害。

1. 为什么要将 Apache Iceberg 与 Cloudera 数据平台集成?

在 Cloudera,咱们对开放性和互操作性的承诺毫不含糊。这推动了咱们为 Apache Hive、Apache Spark、Apache Nifi、Apache Impala、Apache YuniKorn 等社区的翻新做出了许多重大贡献。2022 年 2 月,咱们在 CDP 中引入了 Apache Iceberg 作为技术预览。
在过来的十年中,Cloudera 通过引入 Hive 表格局和 Hive ACID 实现了对数据湖的多功能剖析。Lakehouse 模式曾经倒退到云,然而,它依然由与次要引擎相关联的表格格局驱动,通常是繁多供应商。另一方面,公司持续须要数据湖上高度可扩大和灵便的剖析引擎和服务,而不受供应商的限度。组织须要可能随着业务的倒退而倒退的古代数据架构,咱们很快乐通过第一个凋谢数据湖仓为他们提供反对。
Apache Iceberg 当初作为 CDP 的一部分蕴含在内,它为古代数据架构带来了显着的益处,包含:

  • 就地进行表演变,涵盖架构和分区更改,作为单个命令,而不是耗时一周的过程
  • 通过工夫点查问进行工夫旅行,以实现取证可见性和法规听从性功能
  • 并发多功能剖析可满足从边缘到 AI 的端到端数据生命周期需要
  • 性能:通过踊跃分区进步性能以解决超大规模数据集

2. CDP 提供了通往 Iceberg 的最快、最简略的路径

咱们将 Iceberg 间接集成到 CDP 的 SDX 层中,因而客户能够轻松应用 Iceberg 并立刻取得凋谢表格格局的所有生产力和性能劣势。客户在单个命令中应用仅元数据迁徙,而无需涉及任何底层大型数据集。这是采纳的微小加速器。

3. 为您的数据湖仓增压,使其凋谢

数据湖仓对于 Cloudera 或咱们的客户来说并不生疏。例如,IQVIA 应用 Cloudera 将来自寰球 250 个数据仓库(包含 Oracle、IBM Netezza 和 Teradata 零碎)的超过 2 PB 数据会集到一个寰球多租户数据湖中,并在该数据湖上运行剖析。IQVIA 应用 Hive 凋谢表格局和 Cloudera 的预集成多功能剖析平台已有五年多的工夫。但目前的数据湖屋架构模式还不够。咱们看到公司须要一个逾越整个数据生命周期的平台,该平台能够提供多个高级剖析用例,其中蕴含残缺的动态数据和经营数据库产品。这是凋谢数据湖仓,只有 Cloudera 能够在混合数据平台中提供。

借助 CDP 中的 Apache Iceberg,Cloudera 凭借凋谢的数据和社区生态系统以及企业强化和性能当先于数据湖仓。咱们的技术预览客户分享了以下反馈:

  • Teranet:“在评估了所有次要的开源存储框架来构建咱们的 Lakehouse 之后,咱们抉择了 Apache Iceberg,因为它 100% 凋谢、功能丰富并且具备弱小的社区参与度。当初有了 Iceberg,CDP 反对凋谢的数据湖仓架构,该架构为咱们的所有剖析工作负载提供面向未来的数据平台。咱们抉择变更数据捕捉作为咱们在 Iceberg 上的第一个用例。通过频繁更新咱们的数据湖,咱们的指标是减速报告和商业智能,让咱们的业务团队可能拜访以后的洞察力。分区演变对咱们来说也是一项要害能力,为大规模数据工程和 BI 工作负载提供卓越的查问性能,”Teranet 的零碎架构师 Steve Brackenbury 说。
  • Modak Nabu:“Modak 与 Cloudera 的单干使咱们可能帮忙咱们的客户部署一个对立所有数据的 Lakehouse 架构,同时为任何剖析用例(人工智能、机器学习、SQL、商业智能报告、仪表板和更多的。通过应用 Cloudera 的 CDP Iceberg 表格格局对 Modak Nabu 进行认证,企业客户能够减速任何数据的 PB 级数据摄取、治理和生产,从而简化数据管理和更快的数据拜访,”Daniel Mantovani 说,翻新主管莫达克剖析。
    客户通过 CDP 充分利用了分区演变性能,并通过在其数据上应用更细粒度的分区,实现了 10 倍以上的查问性能劣势。他们能够做到这一点,而无需从新生成或批改任何根底数据。
    咱们对 Apache Iceberg 的集成加强了 CDP 超过数据湖仓的能力。咱们能够在任何中央解决任何数据,包含混合云和多云。咱们在您的数据诞生、登陆和应用的中央工作。
    原文作者:Bill Zhang, Shaun Ahmadian, and Cloudera Contributors
    原文链接:https://blog.cloudera.com/sup…

关注微信公共号理解更多信息:

本文由 mdnice 多平台公布

退出移动版