datax分析与思考一

31次阅读

共计 1214 个字符,预计需要花费 4 分钟才能阅读完成。

Datax

总体流程图

先看执行的第一个步骤:

在最上层抽象类, 这个里面相当于获取全局公共信息,java 入口部分就是这个 Engine 的 main 方法直接启动

Engine 启动

  1. com.alibaba.datax.core.Engine#main 直接启动

阿里这边有提供多级 JSON 配置信息无损存储

com.alibaba.datax.common.util.Configuration

但是平常的使用中很少有直接以 json 的格式操作, 一般是转成对象 bean, 然后进行操作,
他在这边新写这个方法的目的主要在于对封闭的 json 进行处理, 直接从 key 获取到 value, 但是我感觉还是可以直接转成 bean 的形式去获取比较方便. 毕竟只有一个 json 的文件

直接 main 方法启动, 在 datax.py 脚本中设置了锁需要的参数和 json 地址, 在启动的时候通过读取启动参数, 获取到当前的启动配置文件.
这边阿里使用了

<dependency>
    <groupId>commons-cli</groupId>
    <artifactId>commons-cli</artifactId>
    <version>1.3.1</version>
</dependency>

这个包 , 然后使用

Options options = new Options();
        options.addOption("job", true, "Job config.");
        options.addOption("id", true, "Job unique id.");
        options.addOption("mode", true, "Job runtime mode.");
        DefaultParser parser = new DefaultParser();
        CommandLine cl = parser.parse(options, args);
        String job = cl.getOptionValue("job");
        String id = cl.getOptionValue("id");
        String mode = cl.getOptionValue("mode");

来根据参数的名字进行读取. 这个地方平常很少有用到, 可以记录下.

datax 在执行的过程中打了很多的日志, 有个打印 vminfo 的 class 我感觉可以在平常使用到, 之前我也写过这种类似的, 但是说效果不是很好, 因为我之前是使用的脚本去查询的服务器上面的信息.

com.alibaba.datax.common.statistics.VMInfo#getVmInfo

这个类的话, 在日志监控或者效率监控也可以使用到.

  1. com.alibaba.datax.core.Engine#start 进入真正的执行方法

前面基本上都是在对性能参数的赋值, 然后获取到了一个 List<Configuration> taskConfigs, 将这个 list 转成了 map, 然后再循环中开多线程执行任务.

https://github.com/fulln

正文完
 0