关于mysql:Tapdata-Connector-实用指南数据入仓场景之数据实时同步到-BigQuery

【前言】作为中国的 “Fivetran/Airbyte”, Tapdata 是一个以低提早数据挪动为外围劣势构建的古代数据平台，内置 60+ 数据连接器，领有稳固的实时采集和传输能力、秒级响应的数据实时计算能力、稳固易用的数据实时服务能力，以及低代码可视化操作等。典型用例包含数据库到数据库的复制、将数据引入数据仓库或数据湖，以及通用 ETL 解决等。
援用
随着 Tapdata Connector 的一直增长，咱们最新推出《Tapdata Connector 实用指南》系列内容，以文字解析辅以视频演示，还原技术实现细节，模仿理论技术及利用场景需要，提供能够“珍藏跟练”的实用专栏。本期实用指南以 SQL Server → BigQuery 为例，演示数据入仓场景下，如何将数据实时同步到 BigQuery。

数据规模仍在继续扩充的明天，为了从中取得可操作的洞察力，进一步实现数据分析策略的现代化转型，越来越多的企业开始把眼光投注到 BigQuery 之上，心愿通过 BigQuery 来运行大规模要害工作利用，从而达到优化经营、改善客户体验并升高总体领有老本的目标。

作为自带 ETL 的实时数据平台，咱们也看到了很多从传统外部数据仓库向 BigQuery 的数据迁徙需要。

一、BigQuery 的云数仓劣势

作为一款由 Google Cloud 提供的云原生企业级数据仓库，BigQuery 借助 Google 基础架构的弱小解决能力，能够实现海量数据超疾速 SQL 查问，以及对 PB 级数据进行平安并可扩大的剖析。同时也因其人造具备的无服务器架构、低成本等个性，备受数据分析师和数据工程师的青眼，在数据存储和解决上体现出更杰出的便利性。

BigQuery 在企业中通常用于存储来自多个零碎的历史与最新数据，作为整体数据集成策略的一部分，也常作为既有数据库的补充存在。其劣势在于：

在不影响线上业务的状况下进行疾速剖析：BigQuery 专为疾速高效的剖析而设计, 通过在 BigQuery 中创立数据的正本, 能够针对该正本执行简单的剖析查问, 而不会影响线上业务。
数据集中存储, 进步剖析效率：对于分析师而言，应用多个平台耗时费劲，如果将来自多个零碎的数据组合到一个集中式数据仓库中，能够无效缩小这些老本。
安全性保障：能够管制对加密我的项目或数据集的拜访，并施行身份拜访治理。
可扩展性：反对依据公司的规模、性能和老本要求定制数据存储。
敌对兼容：作为 Google Cloud 的一部分，它与 Google 系产品更兼容，对相干用户更敌对。

为了实现上述劣势，咱们须要首先实现数据向 BigQuery 的同步。

二、SQLServer → BigQuery 的数据入仓工作

👆👆点击查看残缺演示
（*本演示视频版本为 Tapdata 本地部署版本）

版本指路：

点击登录 Tapdata Cloud
申请试用 Tapdata 本地部署版

BigQuery 筹备工作

登录 Google Cloud 凭据页面
创立服务账号，该账号将用于后续的身份验证。
a. 在页面顶部，单击创立凭据 > 服务账号。
b. 在服务账号详情区域，填写服务账号的名称、ID 和阐明信息，单击创立并持续。

c. 在角色下拉框中输出并选中 BigQuery Admin，单击页面底部的实现。

为服务账号创立认证密钥。
a. 在跳转到的凭据页面，单击页面下方刚创立的服务账号。
b. 在密钥标签页，单击增加密钥 > 创立新密钥。

c. 在弹出的对话框中，抉择密钥类型为 JSON，而后单击创立。
d. 操作实现后密钥文件将主动下载保留至您的电脑，为保障账户安全性，请妥善保存密钥文件。
e. 登录 Google Cloud 控制台，创立数据集和表，如已存在可跳过本步骤。
i. 创立 BigQuery 数据集（*为保障 Tapdata Cloud 失常读取到数据集信息，创立数据集时，抉择地位类型为多区域）
ii. 创立表

操作流程详解（Tapdata Cloud）

① 登录 Tapdata Cloud

默认已实现 Tapdata Cloud 账号注册及 Agent 部署
确保 Tapdata Agent 所属机器可拜访 Google 云服务，例如可将 Agent 装置至海内服务器。

② 创立数据源 SQL Server 的连贯

在 Tapdata Cloud 连贯治理菜单栏，点击【创立连贯】按钮, 在弹出的窗口中抉择 SQL Server 数据库，并点击确定。

参考右侧【连贯配置帮忙】，实现连贯创立：

③ 创立数据指标 BigQuery 的连贯

在 Tapdata Cloud 连贯治理右侧菜单栏，点击【创立连贯】按钮，在弹出的窗口中抉择 BigQuery，并点击确定
依据已获取的服务账号，在配置中输出 Google Cloud 相干信息，具体阐明如下：

连贯名称：填写具备业务意义的独有名称。
连贯类型：目前仅反对作为指标。
拜访账号（JSON）：用文本编辑器关上您在筹备工作中下载的密钥文件，将其复制粘贴进该文本框中。
数据集 ID：抉择 BigQuery 中已有的数据集。（输出服务账号后, 即可列出全副数据集）
agent 设置：抉择平台主动调配，如有多个 Agent，请手动指定可拜访 Google 云服务的 Agent。

单击连贯测试，测试通过后单击保留。（*如提醒连贯测试失败，可依据页面提醒进行修复）

④ 新建并运行 SQL Server 到 BigQuery 的同步工作

三、Why Tapdata?

借助 Tapdata 杰出的实时数据能力和宽泛的数据源反对，能够在几分钟内实现从源库到 BigQuery 包含全量、增量等在内的多重数据同步工作。

基于 BigQuery 个性，Tapdata 做出了哪些针对性调整

在开发过程中，Tapdata 发现 BigQuery 存在如下三点不同于传统数据库的特色：

如应用 JDBC 进行数据的写入与更新，则性能较差，无奈满足理论应用要求；
如应用 StreamAPI 进行数据写入，尽管速度较快，但写入的数据在一段时间内无奈更新；
一些数据操作存在 QPS 限度，无奈像传统数据库一样随便对数据进行写入。

为此，Tapdata 抉择将 Stream API 与 Merge API 联结应用，既满足了数据高性能写入的须要，又胜利将提早放弃在可控范畴内，具体实现逻辑如下：

在数据全量写入阶段，因为只存在数据的写入，没有变更与删除操作，因而间接应用 Stream API 进行数据导入。
在数据增量阶段，先将增量事件写入一张长期表，并依照肯定的工夫距离，将长期表与全量的数据表通过一个 SQL 进行批量 Merge，实现更新与删除的同步。
两个阶段的 Merge 操作，第一次进行时，强制等待时间为 30min，以防止触发 Stream API 写入的数据无奈更新的限度，之后的 Merge 操作工夫能够配置，这个工夫即为增量的同步延迟时间，个别配置在 5min 以内。

Tapdata 有哪些劣势？

此外，对于数据同步工作而言，Tapdata 同时兼具如下劣势：

内置 60+ 数据连接器，稳固的实时采集和传输能力
以实时的形式从各个数据起源，包含数据库、API、队列、物联网等数据提供者采集或同步最新的数据变动。反对多源异构数据双向同步，主动映射关系型到非关系型。一键实现实时捕捉，毫秒内更新。已内置 60+连接器且一直拓展中，笼罩大部分支流的数据库和类型，并反对您自定义数据源。
具备强可扩展性的 PDK 架构
小时疾速对接 SaaS API 零碎；16 小时疾速对接数据库系统。
对源库简直无影响
基于自研的 CDC 日志解析技术，0入侵实时采集数据，对源库简直无影响。
全链路实时
基于 Pipeline 流式数据处理，以应答基于单条数据记录的即时解决需要，如数据库 CDC、音讯、IoT 事件等。不同于传统 ETL，每一条新产生并进入到平台的数据，会在秒级范畴被响应，计算，解决并写入到指标表中。同时提供了基于工夫窗的统计分析能力，实用于实时剖析场景。
数据一致性保障
通过多种自研技术，保障指标端数据与源数据的高一致性，并反对通过多种形式实现一致性校验，保障生产要求。
可视化工作运行监控和告警
蕴含 20+ 可观测性指标，包含全量同步进度、增量同步提早等，可能实时监控在运行工作的最新运行状态、日志信息等，反对工作告警。

【相干浏览】

Tapdata Cloud 场景通关系列：集成阿里云计算巢，实现一键云上部署真正开箱即用
Tapdata Cloud 场景通关系列：将数据导入阿里云 Tablestore，取得毫秒级在线查问和检索能力
Tapdata Cloud 场景通关系列：数据入湖仓之 MySQL → Doris，极简架构，更实时、更简便

原文链接：https://tapdata.net/tapdata-c…

关于mysql:Tapdata-Connector-实用指南数据入仓场景之数据实时同步到-BigQuery

一、BigQuery 的云数仓劣势

二、SQLServer → BigQuery 的数据入仓工作

BigQuery 筹备工作

操作流程详解（Tapdata Cloud）

三、Why Tapdata?

基于 BigQuery 个性，Tapdata 做出了哪些针对性调整

Tapdata 有哪些劣势？

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于mysql:Tapdata-Connector-实用指南数据入仓场景之数据实时同步到-BigQuery

一、BigQuery 的云数仓劣势

二、SQLServer → BigQuery 的数据入仓工作

BigQuery 筹备工作

操作流程详解（Tapdata Cloud）

三、Why Tapdata?

基于 BigQuery 个性，Tapdata 做出了哪些针对性调整

Tapdata 有哪些劣势？

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复