乐趣区

关于分布式计算:DataWorks功能实践速览

简介:DataWorks 性能实际系列,帮忙您解析业务实现过程中的痛点,进步业务性能应用效率!

往期回顾:DataWorks 性能实际速览 01 期——数据同步解决方案

性能举荐:独享数据集成资源组

如上期数据同步解决方案介绍,数据集成的批数据同步工作运行时,须要占用肯定的计算资源,这些资源即资源组,通常先从数据起源所在的机器抽取数据至资源组所在的机器,再推送至指标数据源所在的机器。

而进行数据同步时,能够依据理论状况布局应用哪种数据集成资源组,资源组布局的关键点包含 连通性 性能 两方面。

以下就从数据集成资源组的类型与性能、网络连通性两方面,为您介绍数据集成资源组的详情:

Part1:数据集成资源组的类型与性能比照

DataWorks 数据集成反对多种不同资源组:

  • 独享数据集成资源组:
    购买后可独占应用的资源组。在工作高并发执行且无奈错峰运行,须要独享的资源组来保障数据疾速、稳固地传输时,您能够抉择独享资源组。
  • 自定义数据集成资源组:
    如果您有充裕的服务器资源,也可将此局部资源作为 DataWorks 中工作运行的资源组应用,DataWorks 反对自定义资源组。

以上两种数据集成资源组在利用上的能力比照如下表所示:

<span> 类别 </span> <span> 独享资源组 </span> <span> 自定义资源组 </span>
<span> 机器资源归属 </span> <span> 由 DataWorks 保护,是本人的租户独享应用的计算资源。</span> <span> 由您本人保护,是属于您的 IDC 机器。</span>
<span> 网络 </span> <span> 反对 VPC、公网和任意网络下的阿里云产品。</span> <span> 反对 VPC、公网和任意网络下的阿里云产品。</span>
<span> 免费形式 </span> <span> 依据机器的规格,包年包月计费。</span> <span>DataWorks 版本按月应用免费。</span>
<span> 反对的数据源 </span> <span> 全副数据源 </span> <span> 全副数据源 </span>
<span> 安全性 </span> <span> 高 </span> <span> 依据您本身机器所处的环境决定 </span>
<span> 工作执行的效率 </span><span class=”lake-fontsize-9″> 指工作是否可能分到足够的计算资源,是否以最高性能运行。</span> <span> 高 </span> <span> 依据您本身机器所处的环境决定 </span>
<span> 可靠性 </span><span class=”lake-fontsize-9″> 指工作是否可能按时启动。执行工作时,网络资源是否被其它租户占用,导致工作不能按时产出后果。</span> <span> 高 </span> <span> 依据您本身机器所处的环境决定 </span>
<span> 实用场景 </span> <span> 大量、重要的生产级别的工作。</span> <span> 应用自定义资源组的场景如下:</span><ul><li><span> 如果您本身已有计算资源,能够对接阿里云重复使用,无需从新购买。</span></li><li><span> 须要同步的数据源全副在 IDC 内。</span></li></ul>
<span> 举荐指数 </span> <span>★★★★★</span> <span>★</span>

十分建议您应用 独享数据集成资源组 来运行数据集成工作 独享数据集成资源组的购买后,您须要实现网络配置和工作空间绑定,后续即可抉择与数据源的网络连通计划进行连通配置了。在此之前,独享数据集成资源组的购买与根底配置的操作详情请参见新增和应用独享数据集成资源组。

### Part2:数据集成资源组的网络连通计划

进行数据同步时,须要依据数据库所在网络环境,通过对应的网络解决方案,实现对应类型资源组与数据库的网络连通。连通计划概览如下。

以下为您重点介绍独享数据集成资源组的网络连通计划详情,其余资源组类型的网络连通计划可进入帮忙核心查看。

#### 场景 1:数据源具备拜访公网的能力

如果数据源具备公网拜访能力的话,那么数据源与资源组之间能够间接通过公网互访。

#### 场景 2:数据源在 VPC 网络中,且 VPC 和 DataWorks 在同一个地区

如果数据源在 VPC 网络中,且 VPC 和 DataWorks 在同一个地区,那能够将独享数据集成资源组绑定数据源所在 VPC。同时须要关注,资源组与 DataWorks 是否在同一个可用区中,如果不在同一个可用区中,还须要手动增加一下路由,保障资源组与数据源之间网络是连通的。增加路由的操作详情可参见增加路由。

#### 场景 3:数据源在 VPC 网络中,且 VPC 和 DataWorks 在不同的地区

如果数据源在 VPC 网络中,且 VPC 和 DataWorks 在不同的地区中,那您须要为独享数据集成资源组绑定一个 VPC,而后通过高速通道、VPN 或其余网络连通产品连通资源组绑定的 VPC 与数据源所在的 VPC。

常见的网络连通产品包含:

* 云企业网应用场景示例,请参见云企业网。
* 高速通道应用场景示例,请参见高速通道。
* VPN 网关应用场景示例,请参见 VPN 网关。

此外,您仍旧须要手动增加一下路由,保障网络连通性。增加路由的操作详情可参见增加路由。

#### 场景 4:数据源在 IDC 内

如果数据源在 IDC 内,与场景 3:数据源在 VPC 中且与 DataWorks 不同地区的场景相似,您须要为独享数据集成资源组绑定一个 VPC,而后通过高速通道、VPN 或其余网络连通产品连通资源组绑定的 VPC 与数据源所在的 VPC。

常见的网络连通产品包含:

* 云企业网应用场景示例,请参见云企业网。
* 高速通道应用场景示例,请参见高速通道。
* VPN 网关应用场景示例,请参见 VPN 网关。

此外,您仍旧须要手动增加一下路由,保障网络连通性。增加路由的操作详情可参见增加路由。

#### 场景 5:数据源在经典网络

如果数据源在经典网络内,则此场景下,不反对数据源与 DataWorks 资源组网络连通,建议您将数据源迁徙至 VPC 网络中。

PS:阿里云经典网络已不举荐应用,建议您迁徙数据源至 VPC。

### Part3:注意事项——白名单的影响

保障资源组与数据源之间网络连通后,您还需保障资源组与数据源之间不会因为白名单的限度而无奈进行数据拜访,例如,局部数据源设置白名单后会不容许白名单外的 IP 拜访,您须要将资源组的 IP 增加至数据源的白名单中。

应用不同类型的数据集成资源组时,须要增加到数据源白名单中的 IP 地址不统一,详情可进入帮忙核心查看,以下为您示例,应用独享数据集成资源组时,须要获取并增加到数据源白名单中的 IP 地址。

* 交换机网段:

* 独享资源组的 EIP 地址:

## 场景实际

理解了独享数据集成资源组后,您能够参考以下文档进行实操实际。

* 新增和应用独享数据集成资源组
* 同步数据至 MaxCompute

> 版权申明:本文内容由阿里云实名注册用户自发奉献,版权归原作者所有,阿里云开发者社区不领有其著作权,亦不承当相应法律责任。具体规定请查看《阿里云开发者社区用户服务协定》和《阿里云开发者社区知识产权爱护指引》。如果您发现本社区中有涉嫌剽窃的内容,填写侵权投诉表单进行举报,一经查实,本社区将立即删除涉嫌侵权内容。

退出移动版