1 背景

咱们平时会写各种各样或简略或简单的sql语句,提交后就会失去咱们想要的后果集。比方sql语句,”select * from t\_user where user\_id > 10;”,意在从表t\_user中筛选出user\_id大于10的所有记录。你有没有想过从一条sql到一个后果集,这两头经验了多少崎岖呢?

2 SQL引擎

从MySQL、Oracle、TiDB、CK,到Hive、HBase、Spark,从关系型数据库到大数据计算引擎,他们大都能够借助SQL引擎,实现“承受一条sql语句而后返回查问后果”的性能。

他们外围的执行逻辑都是一样的,大抵能够通过上面的流程来概括:

两头蓝色局部则代表了SQL引擎的根本工作流程,其中的词法剖析和语法分析,则能够引申出“形象语法树”的概念。

3 形象语法树

3.1 概念

高级语言的解析过程都依赖于解析树(Parse Tree),形象语法树(AST,Abstract Syntax Tree)是疏忽了一些解析树蕴含的一些语法信息,剥离掉一些不重要的细节,它是源代码语法结构的一种形象示意。以树状的模式体现编程语言的构造,树的每个节点ASTNode都示意源码中的一个构造;AST在不同语言中都有各自的实现。

解析的实现过程这里不去深刻分析,重点在于当SQL提交给SQL引擎后,首先会通过词法剖析进行“分词”操作,而后利用语法解析器进行语法分析并造成AST。

下图对应的SQL则是“select username,ismale from userInfo where age>20 and level>5 and 1=1”;

这棵形象语法树其实就简略的能够了解为逻辑执行打算了,它会通过查问优化器利用一些规定进行逻辑打算的优化,失去一棵优化后的逻辑打算树,咱们所熟知的“谓词下推”、“剪枝”等操作其实就是在这个过程中实现的。失去逻辑打算后,会进一步转换成可能真正进行执行的物理打算,例如怎么扫描数据,怎么聚合各个节点的数据等。最初就是依照物理打算来一步一步的执行了。

3.2 ANTLR4

解析(词法和语法)这一步,很多SQL引擎采纳的是ANTLR4工具实现的。ANTLR4采纳的是构建G4文件,外面通过正则表达式、特定语法结构,来形容指标语法,进而在应用时,依赖语法字典一样的构造,将SQL进行拆解、封装,进而提取须要的内容。下图是一个形容SQL构造的G4文件。

3.3 示例

3.2.1 SQL解析

在java中的实现一次SQL解析,获取AST并从中提取出表名。

首先引入依赖:

<dependency>    <groupId>org.antlr</groupId>    <artifactId>antlr4-runtime</artifactId>    <version>4.7</version></dependency>

在IDEA中装置ANTLR4插件;

示例1,解析SQL表名。

应用插件将形容MySQL语法的G4文件,转换为java类(G4文件疏忽)。

类的构造如下:

其中SqlBase是G4文件名转换而来,SqlBaseLexer的作用是词法解析,SqlBaseParser是语法解析,由它生成AST对象。HelloVisitor和HelloListener:进行形象语法树的遍历,个别都会提供这两种模式,Visitor访问者模式和Listener监听器模式。如果想本人定义遍历的逻辑,能够继承这两个接口,实现对应的办法。

读取表名过程,是重写SqlBaseBaseVisitor的几个要害办法,其中TableIdentifierContext是表定义的内容;

SqlBaseParser下还有SQL其余“词语”的定义,对应的就是G4文件中的各类形容。比方TableIdentifierContext对应的是G4中TableIdentifier的形容。

3.2.2 字符串解析

下面的SQL解析过程比较复杂,以一个简略字符串的解析为例,理解一下ANTLR4的逻辑。

1)定义一个字符串的语法:Hello.g4

2)应用IDEA插件,将G4文件解析为java类

3)语法解析类HelloParser,内容就是咱们定义的h和world两个语法规定,外面具体本义了G4文件的内容。

4)HelloBaseVisitor是采纳访问者模式,凋谢进去的接口,须要自行实现,能够获取xxxParser中的规定信息。

5)编写测试类,应用解析器,辨认字符串“hi abc”:

6)调试后发现命中规定h,解析为Hi和abc两局部。

7)如果是SQL的解析,则会一层层的获取到SQL中的各类要害key。

4 SqlParser

利用ANTLR4进行语法解析,是比拟底层的实现,因为Antlr4的后果,只是简略的文法解析,如果要进行更加深刻的解决,就须要对Antlr4的后果进行更进一步的解决,以更合乎咱们的应用习惯。

利用ANTLR4去生成并解析AST的过程,相当于咱们在写rpc框架前,先去实现一个netty。因而在工业生产中,会间接采纳已有工具来实现解析。

Java生态中较为风行的SQL Parser有以下几种(此处摘自网络):

  • fdb-sql-parser 是FoundationDB在被Apple收买前开源的SQL Parser,目前已无人保护。
  • jsqlparser 是基于JavaCC的开源SQL Parser,是General SQL Parser的Java实现版本。
  • Apache calcite 是一款开源的动态数据治理框架,它具备SQL解析、SQL校验、查问优化、SQL生成以及数据连贯查问等性能,罕用于为大数据工具提供SQL能力,例如Hive、Flink等。calcite对规范SQL反对良好,然而对传统的关系型数据方言反对度较差。
  • alibaba druid 是阿里巴巴开源的一款JDBC数据库连接池,但其为监控而生的理念让其人造具备了SQL Parser的能力。其自带的Wall Filer、StatFiler等都是基于SQL Parser解析的AST。并且反对多种数据库方言。

Apache Sharding Sphere(原当当Sharding-JDBC,在1.5.x版本后自行实现)、Mycat都是国内目前大量应用的开源数据库中间件,这两者都应用了alibaba druid的SQL Parser模块,并且Mycat还开源了他们在选型时的比照剖析Mycat路由新解析器选型剖析与后果.

4.1 利用场景

当咱们拿到AST后,能够做什么?

  • 语法审核:依据内置规定,对SQL进行审核、合法性判断。
  • 查问优化:依据where条件、聚合条件、多表Join关系,给出索引优化倡议。
  • 改写SQL:对AST的节点进行增减。
  • 生成SQL特色:参考JIRA的慢SQL工单中,生成的指纹(不肯定是AST形式,但AST能够实现)。

4.2 改写SQL

提到改写SQL,可能第一个思路就是在SQL中增加占位符,再进行替换;再或者利用正则匹配关键字,这种形式局限性比拟大,而且从平安角度不可取。

基于AST改写SQL,是用SQL字符串生成AST,再对AST的节点进行调整;通过遍历Tree,拿到指标节点,减少或批改节点的子节点,再将AST转换为SQL字符串,实现改写。这是在满足SQL语法的前提下实现的平安改写。

以Druid的SQL Parser模块为例,利用其中的SQLUtils类,实现SQL改写。

4.2.1 新增改写

1)原始SQL

2)理论执行SQL

4.2.2 查问改写

后面省略了Tree的遍历过程,须要辨认诸如join、sub-query等语法

1)简略join查问

  • 原始SQL

  • 理论执行SQL

2)join查问+隐式where条件

  • 原始SQL

  • 理论执行SQL

3)union查问+join查问+子查问+显示where条件

  • 原始SQL
    (unionQuality\_Union\_Join\_SubQuery\_ExplicitCondition)

  • 理论执行SQL

5 总结

本文是基于环境隔离的技术预研过程产生的,其中改写SQL的实现,是数据库在数据隔离上的一种尝试。

能够让开发人员无感知的状况下,以插件模式,在SQL提交到MySQL前实现动静改写,只须要在数据表上减少字段、标识环境差别,后续CRUD的SQL都会主动减少标识字段(flag=’预发’、flag=’生产’),所操作的数据只能是以后利用所在环境的数据。

作者:耿宏宇