一、需求
DataX 阿里的开源的时候并未提供任何可视化界面,我们在使用的过程中,需要将 Json 配置文件放到 Datax 的 job 路径下,随着业务的增加,配置文件不方便管理并且每次执行都需要修改命令,非常不方便。
二、平台简介
平台主要用于数据同步、数据处理等等 ETL 操作。
平台基于阿里的开源同步工具 datax3.0 开发。
平台开发语言 Java 8。
平台运行环境无要求。
数据库 Mysql5.7。
Python 环境建议 Python2.7。
项目地址:https://github.com/WeiYe-Jing/springboot-datax
项目运行
1. 下载 datax 打包之后的文件或者 github 拉取 datax 代码打包,配置环境变量。
DATAX_HOME=G:\learndemo\springboot-datax\datax\bin
2. 执行 datax-web/db 下面的 sql 文件并修改 application.yml 数据库配置信息。
3. application.yml 配置数据抽取日志文件保存路径。
etlLogDir: D:\temp\logs\datax-web\
4. 打开网页端启动作业。
http://localhost:8080/index.html#/datax/job
5. 在线配置 Job。