关于java:数栈技术分享用短平快的方式告诉你FlinkSQL的扩展实现

数栈是云原生—站式数据中台PaaS，咱们在github和gitee上有一个乏味的开源我的项目：FlinkX，FlinkX是一个基于Flink的批流对立的数据同步工具，既能够采集动态的数据，也能够采集实时变动的数据，是全域、异构、批流一体的数据同步引擎。大家喜爱的话请给咱们点个star！star！star！

github开源我的项目：https://github.com/DTStack/fl...

gitee开源我的项目：https://gitee.com/dtstack_dev...

首先，本文所述均基于flink 1.5.4。
一、咱们为什么扩大Flink-SQL?

因为Flink 自身SQL语法并不提供在对接输出源和输入目标的SQL语法。数据开发在应用的过程中须要依据其提供的Api接口编写Source和 Sink, 异样繁琐，不仅须要理解FLink 各类Operator的API,还须要对各个组件的相干调用形式有理解（比方kafka，redis,mongo,hbase等），并且在须要关联到内部数据源的时候没有提供SQL相干的实现形式，因而数据开发间接应用Flink编写SQL作为实时的数据分析时须要较大的额定工作量。

咱们的目标是在应用Flink-SQL的时候只须要关怀做什么，而不须要关怀怎么做。不须要过多的关怀程序的实现，专一于业务逻辑。

接下来，咱们一起来看下Flink-SQL的扩大实现吧！
二、扩大了哪些flink相干sql

1、创立源表语句

2、创立输出表语句

3、创立自定义函数

4、维表关联

三、各个模块是如何翻译到flink的实现

1、如何将创立源表的sql语句转换为flink的operator

Flink中表的都会映射到Table这个类。而后调用注册办法将Table注册到environment。

StreamTableEnvironment.registerTable(tableName, table);

以后咱们只反对kafka数据源。Flink自身有读取kafka 的实现类, FlinkKafkaConsumer09,所以只须要依据指定参数实例化出该对象。并调用注册办法注册即可。

另外须要留神在flink sql常常会须要用到rowtime, proctime, 所以咱们在注册表构造的时候额定增加rowtime,proctime。

当须要用到rowtime的应用须要额定指定DataStream.watermarks(assignTimestampsAndWatermarks)，自定义watermark次要做两个事件：1：如何从Row中获取工夫字段。 2：设定最大延迟时间。

2、如何将创立的输出表sql语句转换为flink的operator

Flink输入Operator的基类是OutputFormat, 咱们这里继承的是RichOutputFormat, 该抽象类继承OutputFormat，额定实现了获取运行环境的办法getRuntimeContext(), 不便于咱们之后自定义metric等操作。

咱们以输入到mysql插件mysql-sink为例，分两局部：

将create table 解析出表名称，字段信息，mysql连贯信息。

该局部应用正则表达式的形式将create table 语句转换为外部的一个实现类。该类存储了表名称，字段信息，插件类型，插件连贯信息。

继承RichOutputFormat将数据写到对应的内部数据源。

次要是实现writeRecord办法，在mysql插件中其实就是调用jdbc 实现插入或者更新办法。

3、如何将自定义函数语句转换为flink的operator;

Flink对udf提供两种类型的实现形式：

1）继承ScalarFunction

2）继承TableFunction

须要做的将用户提供的jar增加到URLClassLoader, 并加载指定的class (实现上述接口的类门路),而后调用TableEnvironment.registerFunction(funcName, udfFunc)；即实现了udf的注册。之后即可应用改定义的udf;

4、维表性能是如何实现的？

流计算中一个常见的需要就是为数据流补齐字段。因为数据采集端采集到的数据往往比拟无限，在做数据分析之前，就要先将所需的维度信息补全，然而以后flink并未提供join内部数据源的SQL性能。

实现该性能须要留神的几个问题：

1）维表的数据是一直变动的

在实现的时候须要反对定时更新内存中的缓存的内部数据源，比方应用LRU等策略。

2）IO吞吐问题

如果每接管到一条数据就串行到内部数据源去获取对应的关联记录的话，网络提早将会是零碎最大的瓶颈。这里咱们抉择阿里奉献给flink社区的算子RichAsyncFunction。该算子应用异步的形式从内部数据源获取数据，大大减少了破费在网络申请上的工夫。

3）如何将sql 中蕴含的维表解析到flink operator

为了从sql中解析出指定的维表和过滤条件，应用正则显著不是一个适合的方法。须要匹配各种可能性。将是一个无穷无尽的过程。查看flink自身对sql的解析。它应用了calcite做为sql解析的工作。将sql解析出一个语法树，通过迭代的形式，搜寻到对应的维表；而后将维表和非维表构造离开。

通过上述步骤能够通过SQL实现罕用的从kafka源表，join内部数据源，写入到指定的内部目标构造中。