乐趣区

关于kettle:JDBC-Kettle-on-MaxCompute-使用指南

简介:Kettle 是一款开源的 ETL 工具,纯 Java 实现,能够在 Windows、Unix 和 Linux 上运行,提供图形化的操作界面,能够通过拖拽控件的形式,不便地定义数据传输的拓扑。根本讲介绍基于 Kettle 的 MaxCompute 插件实现数据上云。

Kettle 版本:8.2.0.0-342

MaxCompute JDBC driver 版本:3.2.8

Setup

  1. 下载并装置 Kettle
  2. 下载 MaxCompute JDBC driver
  3. 将 MaxCompute JDBC driver 置于 Kettle 装置目录下的 lib 子目录(data-integration/lib)
  4. 下载并编译 MaxCompute Kettle plugin:https://github.com/aliyun/ali…
  5. 将编译后的 MaxCompute Kettle plugin 置于 Kettle 装置目录下的 lib 子目录(data-integration/lib)
  6. 启动 spoon

Job

咱们能够通过 Kettle + MaxCompute JDBC driver 来实现对 MaxCompute 中工作的组织和执行。

首先须要执行以下操作:

  1. 新建 Job
  2. 新建 Database Connection

JDBC 连贯串格局为:jdbc:odps:?project=

JDBC driver class 为:com.aliyun.odps.jdbc.OdpsDriver

Username 为阿里云 AccessKey Id

Password 为阿里云 AccessKey Secret

JDBC 更多配置见:https://help.aliyun.com/docum…

之后,能够依据业务须要,通过 SQL 节点拜访 MaxCompute。上面咱们以一个简略的 ETL 过程为例:

Create table 节点的配置如下:

须要留神:

  1. 这里 Connection 须要抉择咱们配置好的
  2. 不要勾选 Send SQL as single statement

Load from OSS 节点配置如下:

须要留神的点同 Create table 节点。无关更多 Load 的用法,见:
https://help.aliyun.com/docum…

Processing 节点配置如下:

须要留神的点同 Create table 节点。

Transformation

咱们能够通过 MaxCompute Kettle plugin 实现数据流出或流入 MaxCompute。

首先新建 Transformation,之后新建 Aliyun MaxCompute Input 节点,配置如下:

在 MaxCompute 中新建一张空表,schema 与 test_partition_table 统一。

新建 Aliyun MaxCompute Output 节点,配置如下:

执行 Transformation,数据便从 test_partition_table 被下载,后被上传至 test_partition_table_2。

其余

设置 MaxCompute flags


如图,在执行 DDL/DML/SQL 之前,能够通过 set key=value; 的形式配置 flags。

Script 模式

临时无奈反对

原文链接

本文为阿里云原创内容,未经容许不得转载。

退出移动版