关于数据库:Tapdata-Connector-实用指南云原生数仓场景之数据实时同步到-Databend

0次阅读

共计 3052 个字符,预计需要花费 8 分钟才能阅读完成。

【前言】作为中国的“Fivetran/Airbyte”, Tapdata 是一个以低提早数据挪动为外围劣势构建的古代数据平台,内置 60+ 数据连接器,领有稳固的实时采集和传输能力、秒级响应的数据实时计算能力、稳固易用的数据实时服务能力,以及低代码可视化操作等。典型用例包含数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 解决等。
援用
随着 Tapdata Connector 的一直增长,咱们最新推出《Tapdata Connector 实用指南》系列内容,以文字解析辅以视频演示,还原技术实现细节,模仿理论技术及利用场景需要,提供能够“珍藏跟练”的实用专栏。本期实用指南以阿里云 RDS MySQL → 云原生数仓 Databend 为例,演示数据入仓场景下,如何将数据实时同步到 Databend。

随着数据对业务的重要性成为宽泛共识,咱们看到越来越多的企业开始投身数仓建设。而数据的产生和存储量也出现爆炸式增长的趋势,企业的数据分析需要也在一直减少,对数据处理和剖析效率的要求也越来越高,原有的数据处理形式无奈满足实时、疾速、精确的数据处理和剖析需要,时代召唤更高效的数据仓库治理和数据处理技术。

适逢云计算技术倒退,计算平台的能力失去了大幅度晋升,提供了更高效、更平安、更灵便、更牢靠的计算和存储资源。在此基础上,云原生数仓作为一种新型的数据仓库解决方案,应运而生,并逐步成为一个重要的发展趋势。作为一种基于云原生技术栈构建的数据仓库解决方案,其在设计和部署时充分利用云服务的个性,如弹性、自动化、可扩展性、高可用性等,并在理论业务中透出如下劣势:

  • 更高效的数据处理和剖析:云原生数据仓库能够将大规模的数据集和数据处理工作分解成小的可伸缩的计算单元,以提供更高效的数据处理和剖析能力;
  • 更灵便的架构设计:云原生数据仓库的架构设计容许用户疾速适应不同的数据模型、数据起源和剖析需要,同时也反对多种数据处理引擎的无缝集成;
  • 更低的老本:云原生数据仓库能够在弹性云基础设施上进行部署和运行,以升高总领有老本。此外,因为其自动化的个性,能够缩小对业余人员的依赖,进一步升高治理老本;
  • 更高的可靠性和安全性:云原生数据仓库利用云服务商提供的平安和牢靠的基础设施,以保障数据的安全性和可靠性。此外,基于云原生技术的自动化个性还能够缩小运维人员的失误,进步数据仓库的安全性。

同样亲密关注数据价值与云原生力量的 Tapdata,作为自带 ETL 的实时数据平台,也透过社区看到了大量相干的数据迁徙需要,在最新一批数仓指标新增中,就能够看到新一代云原生数仓 Databend 的身影。

一、Databend 的云原生数仓劣势

Databend 是一个应用 Rust 研发、开源、齐全面向云架构的旧式数仓,提供极速的弹性扩大能力,致力于打造按需、按量的 Data Cloud 产品体验,赋能企业降本增效。目前实用于海量日志存储及剖析、订单及商品销售状况剖析、数据审计,以及局部 ES 场景。其特点包含:

  • 开源 Cloud Data Warehouse 明星我的项目
  • Vectorized Execution 和 Pull&Push-Based Processor Model
  • 真正的存储、计算拆散架构,高性能、低成本,按需按量应用
  • 残缺的数据库反对,兼容 MySQL、Clickhouse 协定
  • 反对事务,反对 Time Travel、Database Clone、Data Share 等性能
  • 反对基于同一份数据的多租户读写、共享操作

应用 Databend 的劣势包含:

  • 基于 Rust + 对象存储 及 k8s 架构,真正实现了存算拆散
  • 基于对象存储老本及 Databend 的压缩技术,使存储有 10 倍左右的优化,同时也能够让存储实现按需付费
  • 计算节点无状态,能够让计算实现按需扩缩容

开源地址:https://github.com/datafuselabs/databend/

二、RDS MySQL → Databend 的数据入仓工作

点击查看演示视频
(* 本演示视频版本为 Tapdata Cloud V3)

版本指路:
点击登录 Tapdata Cloud
申请试用 Tapdata 本地部署版

架构部署

*Tapdata Agent 是数据同步、数据异构、数据开发场景中的要害程序。以上场景对数据的流转有着极高的实时性要求,因而,通过下载 Tapdata Agent 并将其部署在用户可控的环境中,基于低提早的用户可控网络,Tapdata Agent 可能施展最佳性能以确保数据流转的实时性。

操作流程详解

① 登录 Tapdata Cloud

  • 默认已实现 Tapdata Cloud 账号注册及 Agent 部署。且用户曾经创立阿里云 RDS MySQL 并在 RDS 中存储了一定量的数据,筹备把数据同步到 Databend。

② 创立 RDS MySQL 连贯
在 Tapdata Cloud 中创立源的连贯:

填写相应的连贯参数,连贯测试通过后保留:

③ 创立 Databend 连贯

在 Beta 数据源中抉择 Databend 连贯并填写相干连贯参数,测试通过后保留:

④ 创立数据复制工作

将 RDS MySQL 数据源和 Databend 数据源拖到画布中连接起来,示意筹备从 RDS MySQL 同步数据到 Databend。同步模式抉择为【全量同步】(增量同步的模式正在开发中),启动工作。

开始从 RDS MySQL 同步数据到 Databend,上面展现了同步过程中的信息和数据:

⑤ 查看后果
首先看一下 RDS MySQL 中的表:

同时咱们也能够在 Databend 中查问出曾经同步过去的表和数据:

三、Why Tapdata

借助 Tapdata 杰出的实时数据能力和宽泛的数据源反对,能够在几分钟内实现从源库到 Databend 包含全量、增量等在内的多重数据同步工作。

在 Any Source → Databend 的数据同步工作中,Tapdata 展现出如下劣势:

  • 内置 60+ 数据连接器,稳固的实时采集和传输能力
    以实时的形式从各个数据起源,包含数据库、API、队列、物联网等数据提供者采集或同步最新的数据变动。反对多源异构数据双向同步,主动映射关系型到非关系型。一键实现实时捕捉,毫秒内更新。已内置 60+ 连接器且一直拓展中,笼罩大部分支流的数据库和类型,并反对您自定义数据源。
  • 具备强可扩展性的 PDK 架构
  • 小时疾速对接 SaaS API 零碎;16 小时疾速对接数据库系统。
  • 对源库简直无影响
    基于自研的 CDC 日志解析技术,0 入侵实时采集数据,对源库简直无影响。
  • 全链路实时
    基于 Pipeline 流式数据处理,以应答基于单条数据记录的即时解决需要,如数据库 CDC、音讯、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范畴被响应,计算,解决并写入到指标表中。同时提供了基于工夫窗的统计分析能力,实用于实时剖析场景。
  • 数据一致性保障
    通过多种自研技术,保障指标端数据与源数据的高一致性,并反对通过多种形式实现一致性校验,保障生产要求。
  • 可视化工作运行监控和告警
    蕴含 20+ 可观测性指标,包含全量同步进度、增量同步提早等,可能实时监控在运行工作的最新运行状态、日志信息等,反对工作告警。

【相干浏览】

  • Tapdata Connector 实用指南:数据入仓场景之数据实时同步到 BigQuery
  • Tapdata Cloud 场景通关系列:数据入湖仓之 MySQL → Doris,极简架构,更实时、更简便
  • Tapdata Connector 实用指南:实时数仓场景之数据实时同步至 ClickHouse

原文链接:https://tapdata.net/tapdata-connector-rds-mysql-databend.html

正文完
 0