ETL简介

  • ETL是英文Extract-Transform-Load的缩写。
  • 用来形容将数据从源端通过抽取(extract)、转换(transform)、加载(load)至目标端的过程。
  • 它可能对各种散布的、异构的源数据(如关系数据)进行抽取。
  • 依照事后设计的规定将不残缺数据、反复数据以及谬误数据等“脏"数据内容进行荡涤。
  • 失去符合要求的“洁净”数据,并加载到数据仓库中进行存储。

这些“洁净”数据就成为了数据分析、数据挖掘的基石。

ETL重要性

  • ETL是实现商务智能(Business Intelligence,BI)的外围。
  • 个别状况下,ETL会破费整个BI我的项目三分之一的工夫,因而ETL设计得好坏间接影响BI我的项目的成败。

ETL工具有哪些

  • datastage (免费)
    最业余的ETL工具, 2005年被IBM收买,目前倒退到11.7版本。
  • informatica (免费)
    informatica创建于1993年,业余水平与Datastage旗鼓相当。
  • ODI (免费)
    oracle数据库厂商提供的工具,有局限性,与oracle数据库耦合太深。
  • kettle(收费)
    Kettle是一款国外开源的ETL工具,纯java编写,能够在Windows、Linux、Unix上运行,数据抽取高效稳固,但学习及保护老本太高。
  • etl-engine (收费)
    用go语言实现的ETL工具,轻量级引擎、跨平台(windows,linux,unix,mac)、可嵌入go语言脚本并解析执行,不便集成到各种我的项目中收费下载
    (GitHub - hw2499/etl-engine: etl engine 轻量级 跨平台 ETL引擎 数据抽取-转换-装载)。