共计 695 个字符,预计需要花费 2 分钟才能阅读完成。
ETL 简介
- ETL 是英文 Extract-Transform-Load 的缩写。
- 用来形容将数据从源端通过抽取 (extract)、转换(transform)、加载(load) 至目标端的过程。
- 它可能对各种散布的、异构的源数据 (如关系数据) 进行抽取。
- 依照事后设计的规定将不残缺数据、反复数据以及谬误数据等“脏 ” 数据内容进行荡涤。
- 失去符合要求的“洁净”数据,并加载到数据仓库中进行存储。
这些“洁净”数据就成为了数据分析、数据挖掘的基石。
ETL 重要性
- ETL 是实现商务智能 (Business Intelligence,BI) 的外围。
- 个别状况下,ETL 会破费整个 BI 我的项目三分之一的工夫,因而 ETL 设计得好坏间接影响 BI 我的项目的成败。
ETL 工具有哪些
- datastage(免费)
最业余的 ETL 工具,2005 年被 IBM 收买,目前倒退到 11.7 版本。 - informatica(免费)
informatica 创建于 1993 年,业余水平与 Datastage 旗鼓相当。 - ODI(免费)
oracle 数据库厂商提供的工具,有局限性,与 oracle 数据库耦合太深。 - kettle(收费)
Kettle 是一款国外开源的 ETL 工具,纯 java 编写,能够在 Windows、Linux、Unix 上运行,数据抽取高效稳固,但学习及保护老本太高。 - etl-engine(收费)
用 go 语言实现的 ETL 工具,轻量级引擎、跨平台(windows,linux,unix,mac)、可嵌入 go 语言脚本并解析执行,不便集成到各种我的项目中收费下载
(GitHub – hw2499/etl-engine: etl engine 轻量级 跨平台 ETL 引擎 数据抽取 - 转换 - 装载)。
正文完