关于etl:Kettle的简单入门实战

42次阅读

共计 1076 个字符,预计需要花费 3 分钟才能阅读完成。

Kettle 简介

  • Kettle 是一款国外开源的 ETL 工具,纯 java 编写,能够在 Window、Linux、Unix 上运行,绿色无需装置,数据抽取高效稳固。

  • Kettle 中文名称叫水壶,该项目标主程序员 MATT 心愿把各种数据放到一个壶里,而后以一种指定的格局流出。

  • Kettle 这个 ETL 工具集,它容许你治理来自不同数据库的数据,通过提供一个图形化的用户环境来形容你想做什么,而不是你想怎么做。

  • Kettle 中有两种脚本文件,transformation 和 job,transformation 实现针对数据的根底转换,job 则实现整个工作流的管制。

  • Kettle(当初曾经更名为 PDI,Pentaho Data Integration-Pentaho 数据集成)。

后期筹备要配置 java 环境。(附 B 站的学习视频:点击返回)

1. 下载 Kettle  点击返回

下载好了当前,无需装置,只有解压就好了,十分不便。

2. 启动 Kettle

双击目录下的 Spoon.bat 即可。

关上的界面:

3. 简略实战:把源数据库表中的数据处理想移植的字段到指标数据库的表中,并且建设定时执行的作业。

留神:在数据库链接的过程中,可能会报某个数据库连贯找不到的异样。是因为没有对应的数据库链接驱动,所以先把对应驱动放入 kettle 的 lib 文件夹。

    a. 创立一个新的转换

    b. 配置 DB 连贯 (转换——> 转换 1——> DB 连贯)

咱们配置两个 DB 连贯,别离是源数据库和指标数据库,如下图所示:

         以 MySQL 为例,前两个方框为必填项,填写结束当前,能够点击最初的 测试 按钮,查看是否能正确连贯。

        c. 新建表输出 (外围对象——> 输出——> 表输出) 拖入到右侧的工作区中,并且双击它

抉择数据库连贯,编写 sql,点击预览,查看是否有正确执行,这样表输出就体验了。

                    

         d. 新建插入 / 更新 (外围对象——> 输入——> 插入 / 更新) 拖入到右侧的工作区中

         按 shift 键,点击表输出,而后拉到 插入 / 更新 使它们建设连贯程序。如下图所示

抉择数据库和指标表等等后,就配置好了。

         e. 点击运行按钮,查看指标表里是否数据有写入,这样,简略实战的转换局部曾经实现。 

         执行后果:

        f. 新建一个作业,把 start,转换和胜利拖入到左边,并且建设连贯。如下图所示:

        g. 双击 start 配置执行策略,以上面为例,我配置了每五秒钟执行一次。

        h. 双击转换,能够导入咱们下面的转换文件。

        i. 点击运行按钮,查看日志。至此,简略实战曾经实现了。

         执行后果:

正文完
 0