关于数据库:技术贴-SQL编译与执行

前言

SQL 编译与执行系列技术博客将依照以下程序别离介绍整个 SQL 执行引擎。

图一 SQL 编译与执行研读流程

parser 局部，包含词法解析和语法解析。
compile 局部，包含语义解析以及打算的构建。
optimize 局部，包含打算的优化。
exec 局部，包含执行打算的生成以及执行。

本文作为本系列第一篇文章，首先为大家介绍 parser 的外围设计，次要包含 SQL 词法以及语法的解析。

一、SQL 执行流程

图二所示为一条 SQL 语句的整体解决流程，总体来说，一条 SQL 语句须要通过下述步骤：parser—构建逻辑打算—构建优化打算—构建物理打算—构建执行打算。

图二 SQL执行流程parser

过程最次要的目标就是解析输出的 SQL 语句，通过词法解析器解析为 token，通过语法解析器生成形象语法树，而后即可传入 SQL 执行引擎进行辨认和解决。

接着进入下一步，首先要对输出的数据进行有效性验证，解析并转换 AST 树，构建逻辑打算。接下来就是对生成的打算进行优化以找到代价最小的执行形式，依据优化好的逻辑打算构建可执行的物理打算，最初下发到各个节点进行分布式执行。

二、Lex & Yacc

Lex 代表 Lexical Analyzar（词法分析器），Yacc 代表 Yet Another Compiler Compiler（编译器代码生成器）。它们别离是用来生成词法分析器和语法分析器的工具，Lex 和 Yacc 在 UNIX 下别离叫 Flex 和 Bison。

词法解析是编译的第一步，将语句拆分为 token，移除空格和正文，一一读入源码中的 character，查看是否无效并传递给语法分析器。语法分析器以 token-stream 的模式从词法分析器获取输出；解析器依据规定文件生成的规定将 token 解析成一个形象语法树的构造，如图三所示。

图三 Lex & Yacc 执行流程

从上图的执行流程能够看出，咱们须要别离为 Lex 和 Yacc 提供对应的规定文件，Lex & Yacc 依据给定的规定，生成合乎需要的词法分析器和语法分析器。个别这两种配置都是文本文件且构造雷同：

... definitions ...%%... rules ...%%... subroutines …

文件通过 %% 分成三局部，最下面定义了各种名称，例如各种表达式、token 等，两头则是重点的规定，首先看一下 Lex 的规定文件：

...%%/* 变量 */[a-z]    {            yylval = *yytext - 'a';            return VARIABLE;         }  /* 整数 */[0-9]+   {            yylval = atoi(yytext);            return INTEGER;         }/* 操作符 */[-+()=/*\n] { return *yytext; }/* 跳过空格 */[ \t]    ;/* 其余格局报错 */.        yyerror("invalid character");%%…

对于词法解析对应的规定，能够看出，右边是扫出来的字符内容，通过正则表达式进行匹配，如果匹配到即返回左边大括号中运行的后果。再看看 Yacc 对应的规定文件：

%token INTEGER VARIABLE%left '+' '-'%left '*' '/'...%%program:        program statement '\n'        |        ;statement:        expr                    { printf("%d\n", $1); }        | VARIABLE '=' expr     { sym[$1] = $3; }        ;       expr:        INTEGER        | VARIABLE              { $$ = sym[$1]; }        | expr '+' expr         { $$ = $1 + $3; }        | expr '-' expr         { $$ = $1 - $3; }        | expr '*' expr         { $$ = $1 * $3; }        | expr '/' expr         { $$ = $1 / $3; }        | '(' expr ')'          { $$ = $2; }        ;%%…

首先是定义了 token 以及一些运算符。%left 代表左联合，同一行的运算符优先级是一样的，不同行的越靠下优先级就越高。

语法规定应用了巴科斯范式（BNF）定义，它不仅能严格地示意语法规定，而且所形容的语法是与上下文无关的。它具备语法简略，示意明确，便于语法分析和编译的特点。每条规定的左部是一个非终结符，右部是由非终结符和终结符组成的一个符号串。具备雷同左部的规定能够共用一个左部，各右部之间以直竖“|”隔开。

解析表达式是生成表达式的逆向操作，咱们须要归宿表达式到一个非终结符。Yacc 生成的语法分析器应用自底向上的归约（shift-reduce）形式进行语法解析，同时应用堆栈保留中间状态。简略的以一条 select 为例：

// 有引号的代表终结符，没有的代表非终结符。SelectStmt:             // 代表从哪些表里获取到哪些字段         SelectFiled FromTableSelectFiled:           // FieldList 代表着一个字段列表           “Select” FieldList          | “Select” “*”FromTable:             // 从一个表列表中获取            “From” TableListFieldList:           // FieldList 能够是某个字段，也能够是多个字段，利用递归能够扩大到无数字段          “Field”         | FieldList “,” “Field”TableList:          // TableList同理           “Table”         | TableList “,” “Table”

当语法分析器进行语法分析的时候，用 . 代表以后读取到的地位，以 SELECT * FROM test 为例：

     SELECT . * FROM test// 匹配到终结符SELECT，继续执行→   SELECT * . FROM test// 此时堆栈里的内容匹配到 SelectFiled，将 SELECT *弹出，SelectFiled 压入到堆栈→   SelectFiled . FROM test→   SelectFiled FROM . test→   SelectFiled FROM test .→   SelectFiled FROM TableList .→   SelectFiled FromTable .→   SelectStmt

通过一系列的转换，咱们就取得了一个 SelectStmt，而整个过程就能够结构一棵树，用于 SQL 解析。上述所示仅为一个简略的例子，实在应用的构造则会简单的多。

三、SQL parser

开务数据库应用了 Goyacc 生成语法分析器，而 Lex 则是手写进去的，实现了 Goyacc 中要求的接口，对应 sql/pkg/sql/parser/scan.go pkg/sql/parser/lexer.go，实现了词法剖析的性能。

语法分析器所对应的性能在 sql.y 文件下。该文件仍合乎上文所述 Yacc 规定文件格式，但没有第三局部 subroutines，第一局部次要就是对一些 token、表达式、优先级、联合性的定义，其中有一个 union 构造体。

%union {  id    int32  pos   int32  str   string  union sqlSymUnion}

该构造领会在 sql.go 生成文件外面生成一个对应的构造体，次要用来定义表达式和 token 的类型，寄存解析过程中 token 的相干变量信息以及最初生成的 AST 信息。此外，还有一些对 token（终结符）和表达式（非终结符）的定义。

%token <str> IDENT SCONST BCONST BITCONST…%type <tree.Statement> stmt_block%type <tree.Statement> stmt…%left      AND%right     NOT%left      AND_AND%nonassoc  IS ISNULL NOTNULL %nonassoc  '<' '>' '=' LESS_EQUALS GREATER_EQUALS NOT_EQUALS…%%

上面是对于 rule 的定义，以 create table 为例：

create_table_stmt:  CREATE opt_temp_create_table TABLE table_name '(' opt_table_elem_list ')' opt_interleave opt_partition_by opt_table_with opt_create_table_on_commit  {    name := $4.unresolvedObjectName().ToTableName()    $$.val = &tree.CreateTable{      Table: name,      IfNotExists: false,      Interleave: $8.interleave(),      Defs: $6.tblDefs(),      AsSource: nil,      PartitionBy: $9.partitionBy(),      Temporary: $2.persistenceType(),      StorageParams: $10.storageParams(),      OnCommit: $11.createTableOnCommitSetting(),    }  }| CREATE opt_temp_create_table TABLE IF NOT EXISTS table_name '(' opt_table_elem_list ')' opt_interleave opt_partition_by opt_table_with opt_create_table_on_commit  {    name := $7.unresolvedObjectName().ToTableName()    $$.val = &tree.CreateTable{      Table: name,      IfNotExists: true,      Interleave: $11.interleave(),      Defs: $9.tblDefs(),      AsSource: nil,      PartitionBy: $12.partitionBy(),      Temporary: $2.persistenceType(),      StorageParams: $13.storageParams(),      OnCommit: $14.createTableOnCommitSetting(),    }  }

能够看出，除了上述所说的一些终结符和非终结符外，还有一个大括号，大括号外面的内容就是当匹配时进行的一些操作，次要就是构建出所须要的 AST。

其中 $1 对应的就是匹配到的第一个字符，$4 就是 table_name 这一部分，最初产生的 CreateTable 这个构造体就对应着 tree 包下的构造体。

type CreateTable struct {   IfNotExists   bool   Table         TableName   Interleave    *InterleaveDef   PartitionBy   *PartitionBy   Temporary     bool   StorageParams StorageParams   OnCommit      CreateTableOnCommitSetting   Defs     TableDefs   AsSource *Select}

通过生成的 sql.go 中的 parse 就能够将 token-stream 生成一个 AST 对应的构造。

总结

以上就是开务数据库的 SQL parser 词法解析和语法解析局部，次要是语法解析局部应用 Goyacc 工具将 sql.y 中的规定生成对应的语法分析器，将词法分析器生成的 token-stream 解析成制订好的树结构。具备这些根底后，咱们就能够进行语法的增加以及批改，减少更多的解析规定，为后续操作做好筹备。

前言

一、SQL 执行流程

二、Lex & Yacc

三、SQL parser

总结

END