关于sql:Kettle-on-MaxCompute使用指南

简介：Kettle 是一款开源的 ETL 工具，纯 java 实现，能够运行于 Windows, Unix, Linux 上运行，提供图形化的操作界面，能够通过拖拽控件的形式，不便地定义数据传输的拓扑。Kettle 反对丰盛的数据输入输出源，数据库反对 Oracle，MySql，DB2 等，也反对业界各种开源的大数据系统，例如 HDFS, HBase, Cassandra, MongoDB 等。本文将介绍如何利用 MaxCompute 的插件无缝对接阿里云的大数据计算平台——MaxCompute。

本示例应用的工具及驱动版本

下载并装置 Kettle
下载 MaxCompute JDBC driver
将 MaxCompute JDBC driver 置于 Kettle 装置目录下的 lib 子目录（data-integration/lib）
启动 spoon

咱们能够通过 Kettle + MaxCompute JDBC driver 来实现对 MaxCompute 中工作的组织和执行。

首先须要执行以下操作：

新建 Job
新建 Database Connection

JDBC 连贯串格局为：jdbc:odps:<maxcompute_endpoint>?project=<maxcompute_project_name>
JDBC driver class 为：com.aliyun.odps.jdbc.OdpsDriver
Username 为阿里云 AccessKey Id
Password 为阿里云 AccessKey Secret
JDBC 更多配置见：https://help.aliyun.com/docum…

之后，能够依据业务须要，通过 SQL 节点拜访 MaxCompute。上面咱们以一个简略的 ETL 过程为例：

Create table 节点的配置如下：

须要留神：

这里 Connection 须要抉择咱们配置好的
不要勾选 Send SQL as single statement

Load from OSS 节点配置如下：

须要留神的点同 Create table 节点。无关更多 Load 的用法，见：https://help.aliyun.com/docum…

Processing 节点配置如下：

须要留神的点同 Create table 节点。

原文链接
本文为阿里云原创内容，未经容许不得转载。

Setup

Job