关于数据库:Tapdata-Cloud-场景通关系列数据入湖仓之-MySQL-→-Doris极简架构更实时更简便

61次阅读

共计 2866 个字符,预计需要花费 8 分钟才能阅读完成。

【前言】作为中国的“Fivetran/Airbyte”, Tapdata Cloud 自去年公布云版公测以来,吸引了近万名用户的注册应用。应社区用户上生产零碎的要求,Tapdata Cloud 3.0 将正式推出商业版服务,提供对生产零碎的 SLA 撑持。Tapdata 目前专一在实时数据同步和集成畛域,外围场景包含以下几大类:
援用

  • 实时数据库同步,如 Oracle → Oracle, Oracle → MySQL, MySQL → MySQL 等
  • 数据入湖入仓,或者为古代数据平台供数,如:

    • 惯例 ETL 工作(建宽表、数据荡涤、脱敏等)
    • 为 Kafka/MQ/Bitsflow 供数或下推
      援用
      具体场景则不可胜数,值此之际,咱们将以系列文章模式,为大家盘点 Tapdata Cloud 能够撑持的业务场景和 3.0 版本新个性,以便大家更好在业务中利用 Tapdata。本期为系列文章第四弹,将以 MySQL → Doris 的数据同步工作为例,介绍 Tapdata Cloud 如何简化数据实时入湖入仓,让业务零碎的数据变动稳固间断地实时复制到数据湖或数仓,为实时剖析提供陈腐的原始数据。(点击申请产品内测,领先体验 →)

数据量走向爆炸的这些年,企业通过对业务数据的采集与剖析应用,逐渐将其转化为可用的信息和可操作的见解,反哺业务优化的方方面面。但如果间接从业务数据库中抽取数据进行剖析,则往往须要面临结构复杂、数据脏乱、难以了解、短少历史,以及大规模查问迟缓等实际操作问题。在这样的背景下,搭建面向剖析需要的数据仓库也就成了十分常见的解决方案,并倒退为数据整合及解决的外围。

然而随着数据体量越来越宏大,时效性要求越来越高,业务侧、经营侧的需要也日趋多样,传统数仓的技术架构未然无奈满足企业实在场景下的利用须要。新型数据仓库平台架构、数据湖技术、湖仓一体的新数据平台,以及云数仓等更多选型不断涌现。其中,基于 Apache Doris 构建的湖仓架构设计计划,凭借其灵便的查问模型、极低的运维老本、短平快的开发链路以及优良的查问性能等劣势,成为泛滥企业摸索或优化湖仓建设更加青眼的抉择。

一、Apache Doris:数据湖、仓场景下的外围劣势

作为一款基于 MPP 架构的高性能、实时的剖析型开源数据库,Apache Doris 主打极速易用,仅需亚秒级响应工夫即可返回海量数据下的查问后果,不仅能够反对高并发的点查问场景,也能反对高吞吐的简单剖析场景,例如报表剖析、即时查问、对立数仓构建、数据湖联邦查问减速等。在湖仓场景下,具备以下外围劣势:

  • 性能突出:依靠列式存储引擎、古代的 MPP 架构、向量化查问引擎、预聚合物化视图、数据索引的实现,在低提早和高吞吐查问上,都达到了极速性能
  • 简略易用:部署只需两个过程,不依赖其余零碎;在线集群扩缩容,主动正本修复;兼容 MySQL 协定,并且应用规范 SQL
  • 对立数仓:繁多零碎,能够同时反对实时数据服务、交互数据分析和离线数据处理场景
  • 联邦查问:反对对 Hive、Iceberg、Hudi 等数据湖和 MySQL、Elasticsearch 等数据库的联邦查问剖析
  • 多种导入:反对从 HDFS/S3 等批量拉取导入和 MySQL Binlog/Kafka 等流式拉取导入;反对通过 HTTP 接口进行微批量推送写入和 JDBC 中应用 Insert 实时推送写入

二、Tapdata Cloud:如何优化数据入湖入仓架构?

传统数据入湖入仓架构,个别存在全量、增量链路拆散;链路长且简单,保护艰难;依赖离线调度剖析,延时较大等缺点。面对这些问题,作为一款开箱即用的实时数据服务,Tapdata Cloud 基于本身技术劣势,为新一代数据入湖入仓架构提供了更具实际价值的解题思路——链路更短、提早更低、更易保护和排查。(性能体验指路:Tapdata Cloud 3.0 现已凋谢内测通道)

借助 Tapdata Cloud 全量增量一体的实时同步能力,能够实现极简的数据入湖入仓架构——读取源库的全量和增量数据,间接复制并更新入数据仓库。这一优化一方面极大升高了对源库的影响,保障了企业本身业务的稳定性;另一方,极大晋升了数据交付速度,助力企业以间断的形式将业务零碎的数据变动实时复制到数据湖或数仓,为实时剖析提供陈腐的原始数据。在这个过程中,Tapdata 展现出的外围亮点包含:

  • 全链路实时
    基于 Pipeline 流式数据处理,以应答基于单条数据记录的即时解决需要,如数据库 CDC、音讯、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范畴被响应,计算,解决并写入到指标表中。同时提供了基于工夫窗的统计分析能力,实用于实时剖析场景。
  • 对源库简直无影响
    基于自研的 CDC 日志解析技术,0 入侵实时采集数据,对源库简直无影响。
  • 可视化工作运行监控和告警
    实时监控在运行工作的最新运行状态、日志信息等,反对工作告警。
  • 数据一致性保障
    通过多种自研技术,保障指标端数据与源数据的高一致性,并反对通过多种形式实现一致性校验,保障生产要求。
  • 内置 50+ 数据连接器,稳固的实时采集和传输能力
    以实时的形式从各个数据起源,包含数据库、API、队列、物联网等数据提供者采集或同步最新的数据变动。反对多源异构数据双向同步,主动映射关系型到非关系型。一键实现实时捕捉,毫秒内更新。已内置 50+ 连接器且一直拓展中,笼罩大部分支流的数据库和类型,并反对您自定义数据源。

三、操作演示:以 MySQL → Doris 为例

👆👆戳这里,查看残缺操作流程演示

① 创立数据源 MySQL 的连贯

② 创立数据指标 Doris 的连贯

③ 创立数据复制工作

④ 工作监控

Tapdata Cloud 3.0:限量内测报名中

全新降级的 Tapdata Cloud 3.0 领有更加全面的链路可观测性的可视化操作界面、加强的数据复制能力,以及数据开发 beta 等多重性能个性上新。

内测权利

将您的利用场景在最新的 Tapdata Cloud 上失去验证,帮忙您解决切实的技术 / 业务痛点,您的内测反馈和贵重倡议,将第一工夫在 Tapdata Cloud 上失去实现。

  • 应用及技术支持:当您遇到应用问题或疑难时,将取得疾速响应和反对。
  • 专享订阅折扣:新版 Tapdata Cloud 将推出免费版本,用户可取得 SLA 级服务,保障生产应用的要求。内测用户将取得优惠订购特权。
  • 成为产品共创贡献者:您将成为 Tapdata Cloud 产品的共创贡献者,内测提出的性能需要及优化倡议,将有机会纳入产品路线图。

目前,Tapdata Cloud 3.0 已凋谢内测报名通道:https://tapdata.net/tapdata-c… ←戳这里即可参加哦

原文链接:https://tapdata.net/real-time-data-entry-into-the-lake-and-warehouse.html

【相干浏览】

  • Tapdata Cloud 场景通关系列:Oracle → MySQL 异构实时同步
  • Tapdata Cloud 场景通关系列:集成阿里云计算巢,实现一键云上部署真正开箱即用
  • Tapdata Cloud 场景通关系列:将数据导入阿里云 Tablestore,取得毫秒级在线查问和检索能力
正文完
 0