乐趣区

关于sql:Kettle-on-MaxCompute使用指南

简介:Kettle 是一款开源的 ETL 工具,纯 java 实现,能够运行于 Windows, Unix, Linux 上运行,提供图形化的操作界面,能够通过拖拽控件的形式,不便地定义数据传输的拓扑。Kettle 反对丰盛的数据输入输出源,数据库反对 Oracle,MySql,DB2 等,也反对业界各种开源的大数据系统,例如 HDFS, HBase, Cassandra, MongoDB 等。本文将介绍如何利用 MaxCompute 的插件无缝对接阿里云的大数据计算平台——MaxCompute。

本示例应用的工具及驱动版本

Setup

  1. 下载并装置 Kettle
  2. 下载 MaxCompute JDBC driver
  3. 将 MaxCompute JDBC driver 置于 Kettle 装置目录下的 lib 子目录(data-integration/lib)
  4. 启动 spoon

Job

咱们能够通过 Kettle + MaxCompute JDBC driver 来实现对 MaxCompute 中工作的组织和执行。

首先须要执行以下操作:

  1. 新建 Job
  2. 新建 Database Connection

JDBC 连贯串格局为:jdbc:odps:<maxcompute_endpoint>?project=<maxcompute_project_name>
JDBC driver class 为:com.aliyun.odps.jdbc.OdpsDriver
Username 为阿里云 AccessKey Id
Password 为阿里云 AccessKey Secret
JDBC 更多配置见:https://help.aliyun.com/docum…

之后,能够依据业务须要,通过 SQL 节点拜访 MaxCompute。上面咱们以一个简略的 ETL 过程为例:

Create table 节点的配置如下:

须要留神:

这里 Connection 须要抉择咱们配置好的
不要勾选 Send SQL as single statement

Load from OSS 节点配置如下:

须要留神的点同 Create table 节点。无关更多 Load 的用法,见:https://help.aliyun.com/docum…

Processing 节点配置如下:

须要留神的点同 Create table 节点。

原文链接
本文为阿里云原创内容,未经容许不得转载。

退出移动版