关于大数据:线下Meetup在数智化转型背景下火山引擎VeDI的大数据技术揭秘

3次阅读

共计 2366 个字符,预计需要花费 6 分钟才能阅读完成。

更多技术交换、求职机会,欢送关注字节跳动数据平台微信公众号,回复【1】进入官网交换群

近日,联结火山引擎开发者社区,火山引擎数智平台(VeDI)《数智化转型背景下的火山引擎大数据技术揭秘》主题 Meetup 暨超话数据特地场正式在深圳举办,邀请到了 Datasail、DataLeap、ByteHouse、EMR、LAS 等多条数智平台(VeDI)产品线的专家带来大数据技术干货分享。

现在各个企业面临的是更变幻莫测的市场、更简单的外部架构、更进退失据的现状。在这种现状下,各个企业如何顺利的实现数字化转型?

往年 4 月上海举办的秋季 FORCE 原动力大会上,火山引擎正式提出了“数据飞轮”的数字化建设模式,取得了业界宽泛关注。火山引擎数据飞轮是企业数智化降级的新范式,基于对字节跳动十余年数据驱动实践经验的提炼,以数据生产为外围驱动力,使企业数据流充沛融入业务流,实现数据资产的业务利用的飞轮效应。其中数据资产轮的理念是在被频繁数据生产的推动下,变得更高质量、更低成本、更快响应的撑持业务利用。

这里波及资产丰盛、品质优化、研发提效三个外围齿轮:

  • 资产丰盛:数据生产推动更丰盛的数据资产交融对立的建设
  • 品质优化:数据生产推动数据资产建设治理具备更高的品质
  • 研发提效:数据根底建设过程中的老本优化和效率晋升

全域数据集成 DataSail 是火山引擎数智平台下数据采集和同步引擎,反对全场景异构数据源集成,助力企业数据资产交融对立建设,本次流动上火山引擎 DataSail 高级研发工程师李延加分享了 DataSail CDC 数据整库实时入仓入湖方面的实际。

在线数据库数据导入到数仓剖析的链路曾经存在多年,随着近年来实时计算的倒退,业界期待有提早更低、运维更便捷、效率更高的 CDC 同步通道。李延加在现场介绍了 DataSail 实现 CDC 整库实时同步的技术计划和业务实际。

随着数字化转型的推动以及业务数仓建设不断完善,大数据开发体量及复杂性逐渐回升,如何保证数据稳固、正确、继续产出成为数据开发者外围诉求,也成为平台建设面临的挑战之一。

火山引擎 DataLeap 产品经理黄虹现场分享了字节跳动基于大数据研发治理套件 DataLeap 的 DataOps 实际,论述了 DataOps 理念在字节的具象以及 DataOps 麻利标准研发平台。DataOps 是数据开发的新范式,通过对数据相干人员、工具和流程的从新组织,突破合作壁垒,构建集开发、治理、经营于一体的自动化数据流水线,一直进步数据产品交付效率与品质,能力实现高质量数字化倒退。

数据根底建设过程中的老本优化和效率晋升是困扰在很多大数据相干企业的难题,本次流动上基于研发提效的角度,来自 ByteHouse、EMR、LAS 研发和产品专家从不同技术细节方向给大家带来干货分享。

在线数据库数据导入到数仓剖析的链路曾经存在多年,随着近年来实时计算的倒退,业界期待有提早更低、运维更便捷、效率更高的 CDC 同步通道。李延加在现场介绍了 DataSail 实现 CDC 整库实时同步的技术计划和业务实际。

随着数字化转型的推动以及业务数仓建设不断完善,大数据开发体量及复杂性逐渐回升,如何保证数据稳固、正确、继续产出成为数据开发者外围诉求,也成为平台建设面临的挑战之一。

火山引擎 DataLeap 产品经理黄虹现场分享了字节跳动基于大数据研发治理套件 DataLeap 的 DataOps 实际,论述了 DataOps 理念在字节的具象以及 DataOps 麻利标准研发平台。DataOps 是数据开发的新范式,通过对数据相干人员、工具和流程的从新组织,突破合作壁垒,构建集开发、治理、经营于一体的自动化数据流水线,一直进步数据产品交付效率与品质,能力实现高质量数字化倒退。

数据根底建设过程中的老本优化和效率晋升是困扰在很多大数据相干企业的难题,本次流动上基于研发提效的角度,来自 ByteHouse、EMR、LAS 研发和产品专家从不同技术细节方向给大家带来干货分享。

火山引擎 ByteHouse 产品经理孔柏林现场分享了基于 ByteHouse 引擎的增强型数据导入技术实际,作为一款云原生数据仓库 ByteHouse 基于自研引擎 HaUniqueMergeTree,构建加强 MaterializedMySQL、HaKafka 引擎,实现数据生产 - 利用一体化,通过案例剖析与总结让与会者了解一体化解决方案的实际及业务价值。

目前大数据量剖析场景下面临着如下外围挑战:HDFS 与对象存储之间的语义差别;存算拆散之后带来的较大性能损耗。火山引擎 EMR 研发工程师吴志平从基于 Proton 的存算拆散角度带来了相干技术实际。云原生开源大数据平台 EMR 团队针对这些挑战自研了 Proton 减速引擎,深度优化对象存储读写能力,与 Hive/Spark/Trino 等计算引擎集成后,在不扭转用户应用习惯的前提条件下,可提供对象存储数据集的通明减速服务。在离线场景下,其性能根本持平存算一体架构。

以后 Spark、Presto 等引擎原 Java 执行的性能优化进入瓶颈期,无奈满足业务需要,而基于向量化和编译优化的 native 引擎,可获两倍性能减速比,升高资源老本。

火山引擎 LAS 高级研发工程师杨嘉义在现场向大家介绍了火山引擎 LAS 底层的湖仓一体减速引擎 Bolt 的架构及在在 LAS 的利用实际,据理解 Bolt 曾经在字节跳动外部 SparkSQL、Presto 大规模上线,减速效果显著,其特色有:面向多场景对立减速、端到端向量化执行。

本次 Meetup 不仅为技术爱好者们提供了一个互动交换的平台,也让大家更深刻地理解了火山引擎数智平台(VeDI)各产品在数智化转型时代背景下,如何更高质量、更低成本、更快响应的撑持业务利用。

期待下一次的 Meetup,让咱们再次相聚,独特探讨技术的魅力。

点击跳转大数据研发治理套件 DataLeap 理解更多

正文完
 0