关于数据库:Tapdata-Connector-实用指南实时数仓场景之数据实时同步至-ClickHouse

44次阅读

共计 2718 个字符,预计需要花费 7 分钟才能阅读完成。

【前言】作为中国的“Fivetran/Airbyte”, Tapdata 是一个以低提早数据挪动为外围劣势构建的古代数据平台,内置 60+ 数据连接器,领有稳固的实时采集和传输能力、秒级响应的数据实时计算能力、稳固易用的数据实时服务能力,以及低代码可视化操作等。典型用例包含数据库到数据库的复制、将数据引入数据仓库或数据湖,以及通用 ETL 解决等。

随着 Tapdata Connector 的一直增长,咱们最新推出《Tapdata Connector 实用指南》系列内容,以文字解析辅以视频演示,还原技术实现细节,模仿理论技术及利用场景需要,提供能够“珍藏跟练”的实用专栏。本期实用指南以 MySQL → ClickHouse 为例,演示数据入仓场景下,如何将数据实时同步到 ClickHouse。

数智时代以后,数据正以极大量级、极细颗粒度、极高时效性、极智能形式影响着企业运作。业务倒退更加依赖数据驱动,如何从类型丰盛的海量数据中实时获取有价值的洞察力正在成为新的挑战。正因如此,兼具计算速度、高并发低提早等性能劣势的 ClickHouse 走入大家的视线,基于 ClickHouse 的实时数仓,也成为诸多企业在寻找强时效性、高数据准确性、低开发运维老本的数据分析与经营决策解决方案的优选之一。

同样亲密关注实时数据价值与能量的 Tapdata,作为自带 ETL 的实时数据平台,也透过社区看到了大量相干的数据迁徙需要,在最新一批数仓指标新增中,ClickHouse 赫然在列。

一、ClickHouse 的实时数仓劣势

ClickHouse(全称 Click Stream, Data WareHouse),是一个开源的、面向列的 OLAP(联机剖析)数据库管理系统),容许应用 SQL 查问实时生成剖析报告。其前身为 Yandex.Metrica,次要用于 WEB 流量剖析。除此之外,ClickHouse 官网推出的 ClickHouse Cloud,作为平安可扩大的云服务,反对轻松获取高效的实时剖析解决能力,能够简化和减速古代数字企业的洞察力和剖析能力。因为不须要治理基础设施,ClickHouse 云架构将存储和计算解耦,并主动扩大以适应古代工作负载,无需调整集群的大小即可满足极高的查问速度需要。

作为数据仓库应用时,ClickHouse 具备以下劣势:

  • 高性能的数据处理能力。ClickHouse 设计的人造劣势,反对高性能解决大量数据,每秒的数据处理量可达上亿行。
  • 实时剖析。反对对大型数据集的实时剖析,可满足实时数据处理和剖析等场景需要。
  • 列式存储。容许对大型数据集进行疾速查问和汇总。
  • 高可扩展性。Clickhouse 在构建时就思考了程度可扩展性和高可用性,能够通过在集群中增加服务器轻松实现横向扩大,在解决大量数据的同时保障性能不受影响。
  • 数据压缩个性。内置压缩算法,能够大大减少数据所需的存储空间,便于存储和解决大量数据。
  • 生态便当。反对 SQL 查问,不便相熟 SQL 的数据分析师和开发人员上手试用,更易于集成数据生态系统中的其余工具和利用。
  • 具备老本效益。作为一个开源我的项目,反对收费下载和应用。此外,沉闷的开源社区也对使用者更加敌对。

总的来说,ClickHouse 为存储和解决大量数据提供了一种疾速、高效和具备老本效益的解决方案。为了实现上述劣势,咱们须要首先实现数据向 ClickHouse 的同步。

二、MySQL → ClickHouse 的数据入仓工作

点击查看演示视频
(* 本演示视频版本为 Tapdata Cloud V3)

版本指路:
点击登录 Tapdata Cloud
申请试用 Tapdata 本地部署版

操作流程详解

① 登录 Tapdata Cloud

  • 默认已实现 Tapdata Cloud 账号注册及 Agent 部署

② 创立数据源 MySQL 的连贯

在 Tapdata Cloud 连贯治理菜单栏,点击【创立连贯】按钮, 在弹出的窗口中抉择 MySQL 数据库,并点击确定。
参考右侧【连贯配置帮忙】,实现连贯创立:

③ 创立数据指标 ClickHouse 的连贯

  1. 点击左侧菜单栏的【连贯治理】,而后点击右侧区域【连贯列表】右上角的【创立连贯】按钮,关上连贯类型抉择页面,而后抉择 ClickHouse。
  2. 在关上的连贯信息配置页面顺次输出须要的配置信息。
  • 连贯名称:设置连贯的名称,多个连贯的名称不能反复
  • 数据库地址:数据库 IP / Host
  • 端口:数据库端口
  • 数据库名称
  • 账号:能够拜访数据库的账号
  • 明码:数据库账号对应的明码
  • 工夫类型的时区:默认应用该数据库的时区;若指定时区,则应用指定后的时区设置
  1. 单击连贯测试,提醒测试通过后单击保留。(* 如提醒连贯测试失败,可依据页面提醒进行修复)

④ 新建并运行 MySQL 到 ClickHouse 的同步工作

三、Why Tapdata

借助 Tapdata 杰出的实时数据能力和宽泛的数据源反对,能够在几分钟内实现从源库到 ClickHouse 包含全量、增量等在内的多重数据同步工作。

在 Any Source → ClickHouse 的数据同步工作中,Tapdata 展现出如下劣势:

  • 内置 60+ 数据连接器,稳固的实时采集和传输能力
    以实时的形式从各个数据起源,包含数据库、API、队列、物联网等数据提供者采集或同步最新的数据变动。反对多源异构数据双向同步,主动映射关系型到非关系型。一键实现实时捕捉,毫秒内更新。已内置 60+ 连接器且一直拓展中,笼罩大部分支流的数据库和类型,并反对您自定义数据源。
  • 具备强可扩展性的 PDK 架构
  • 小时疾速对接 SaaS API 零碎;16 小时疾速对接数据库系统。
  • 对源库简直无影响
    基于自研的 CDC 日志解析技术,0 入侵实时采集数据,对源库简直无影响。
  • 全链路实时
    基于 Pipeline 流式数据处理,以应答基于单条数据记录的即时解决需要,如数据库 CDC、音讯、IoT 事件等。不同于传统 ETL,每一条新产生并进入到平台的数据,会在秒级范畴被响应,计算,解决并写入到指标表中。同时提供了基于工夫窗的统计分析能力,实用于实时剖析场景。
  • 数据一致性保障
    通过多种自研技术,保障指标端数据与源数据的高一致性,并反对通过多种形式实现一致性校验,保障生产要求。
  • 可视化工作运行监控和告警
    蕴含 20+ 可观测性指标,包含全量同步进度、增量同步提早等,可能实时监控在运行工作的最新运行状态、日志信息等,反对工作告警。

【相干浏览】

  • Tapdata Connector 实用指南:数据入仓场景之数据实时同步到 BigQuery
  • Tapdata Cloud 场景通关系列:将数据导入阿里云 Tablestore,取得毫秒级在线查问和检索能力
  • Tapdata Cloud 场景通关系列:数据入湖仓之 MySQL → Doris,极简架构,更实时、更简便

原文链接:https://tapdata.net/tapdata-c…

正文完
 0