前言

SQL 编译与执行系列技术博客将依照以下程序别离介绍整个 SQL 执行引擎。

图一  SQL 编译与执行研读流程

  • parser 局部,包含词法解析和语法解析。
  • compile 局部,包含语义解析以及打算的构建。
  • optimize 局部,包含打算的优化。
  • exec 局部,包含执行打算的生成以及执行。

本文作为本系列第一篇文章,首先为大家介绍 parser 的外围设计,次要包含 SQL 词法以及语法的解析。

一、SQL 执行流程

图二所示为一条 SQL 语句的整体解决流程,总体来说,一条 SQL 语句须要通过下述步骤:parser—构建逻辑打算—构建优化打算—构建物理打算—构建执行打算。

图二  SQL执行流程parser

过程最次要的目标就是解析输出的 SQL 语句,通过词法解析器解析为 token,通过语法解析器生成形象语法树,而后即可传入 SQL 执行引擎进行辨认和解决。

接着进入下一步,首先要对输出的数据进行有效性验证,解析并转换 AST 树,构建逻辑打算。接下来就是对生成的打算进行优化以找到代价最小的执行形式,依据优化好的逻辑打算构建可执行的物理打算,最初下发到各个节点进行分布式执行。

二、Lex & Yacc

Lex 代表 Lexical Analyzar(词法分析器),Yacc 代表 Yet Another Compiler Compiler(编译器代码生成器)。它们别离是用来生成词法分析器和语法分析器的工具,Lex 和 Yacc 在 UNIX 下别离叫 Flex 和 Bison。

词法解析是编译的第一步,将语句拆分为  token,移除空格和正文,一一读入源码中的 character,查看是否无效并传递给语法分析器。语法分析器以 token-stream 的模式从词法分析器获取输出;解析器依据规定文件生成的规定将 token 解析成一个形象语法树的构造,如图三所示。

图三  Lex & Yacc 执行流程

从上图的执行流程能够看出,咱们须要别离为 Lex 和 Yacc 提供对应的规定文件,Lex & Yacc 依据给定的规定,生成合乎需要的词法分析器和语法分析器。个别这两种配置都是文本文件且构造雷同:

... definitions ...%%... rules ...%%... subroutines …

文件通过 %% 分成三局部,最下面定义了各种名称,例如各种表达式、token 等,两头则是重点的规定,首先看一下 Lex 的规定文件:

...%%/* 变量 */[a-z]    {            yylval = *yytext - 'a';            return VARIABLE;         }  /* 整数 */[0-9]+   {            yylval = atoi(yytext);            return INTEGER;         }/* 操作符 */[-+()=/*\n] { return *yytext; }/* 跳过空格 */[ \t]    ;/* 其余格局报错 */.        yyerror("invalid character");%%…

对于词法解析对应的规定,能够看出,右边是扫出来的字符内容,通过正则表达式进行匹配,如果匹配到即返回左边大括号中运行的后果。再看看 Yacc 对应的规定文件:

%token INTEGER VARIABLE%left '+' '-'%left '*' '/'...%%program:        program statement '\n'        |        ;statement:        expr                    { printf("%d\n", $1); }        | VARIABLE '=' expr     { sym[$1] = $3; }        ;       expr:        INTEGER        | VARIABLE              { $$ = sym[$1]; }        | expr '+' expr         { $$ = $1 + $3; }        | expr '-' expr         { $$ = $1 - $3; }        | expr '*' expr         { $$ = $1 * $3; }        | expr '/' expr         { $$ = $1 / $3; }        | '(' expr ')'          { $$ = $2; }        ;%%…

首先是定义了 token 以及一些运算符。%left 代表左联合,同一行的运算符优先级是一样的,不同行的越靠下优先级就越高。

语法规定应用了巴科斯范式(BNF)定义,它不仅能严格地示意语法规定,而且所形容的语法是与上下文无关的。它具备语法简略,示意明确,便于语法分析和编译的特点。每条规定的左部是一个非终结符,右部是由非终结符和终结符组成的一个符号串。具备雷同左部的规定能够共用一个左部,各右部之间以直竖“|”隔开。

解析表达式是生成表达式的逆向操作,咱们须要归宿表达式到一个非终结符。Yacc 生成的语法分析器应用自底向上的归约(shift-reduce)形式进行语法解析,同时应用堆栈保留中间状态。简略的以一条 select 为例:

// 有引号的代表终结符,没有的代表非终结符。SelectStmt:             // 代表从哪些表里获取到哪些字段         SelectFiled FromTableSelectFiled:           // FieldList 代表着一个字段列表           “Select” FieldList          | “Select” “*”FromTable:             // 从一个表列表中获取            “From” TableListFieldList:           // FieldList 能够是某个字段,也能够是多个字段,利用递归能够扩大到无数字段          “Field”         | FieldList “,” “Field”TableList:          // TableList同理           “Table”         | TableList “,” “Table”

当语法分析器进行语法分析的时候,用 . 代表以后读取到的地位,以 SELECT * FROM test 为例:

     SELECT . * FROM test// 匹配到终结符SELECT,继续执行→   SELECT * . FROM test// 此时堆栈里的内容匹配到 SelectFiled,将 SELECT *弹出,SelectFiled 压入到堆栈→   SelectFiled . FROM test→   SelectFiled FROM . test→   SelectFiled FROM test .→   SelectFiled FROM TableList .→   SelectFiled FromTable .→   SelectStmt

通过一系列的转换,咱们就取得了一个 SelectStmt,而整个过程就能够结构一棵树,用于 SQL 解析。上述所示仅为一个简略的例子,实在应用的构造则会简单的多。

三、SQL parser

开务数据库应用了 Goyacc  生成语法分析器,而 Lex 则是手写进去的,实现了 Goyacc 中要求的接口,对应 sql/pkg/sql/parser/scan.go pkg/sql/parser/lexer.go,实现了词法剖析的性能。

语法分析器所对应的性能在 sql.y 文件下。该文件仍合乎上文所述 Yacc 规定文件格式,但没有第三局部 subroutines,第一局部次要就是对一些 token、表达式、优先级、联合性的定义,其中有一个 union 构造体。

%union {  id    int32  pos   int32  str   string  union sqlSymUnion}

该构造领会在 sql.go 生成文件外面生成一个对应的构造体,次要用来定义表达式和 token 的类型,寄存解析过程中 token 的相干变量信息以及最初生成的 AST 信息。此外,还有一些对 token(终结符)和表达式(非终结符)的定义。

%token <str> IDENT SCONST BCONST BITCONST…%type <tree.Statement> stmt_block%type <tree.Statement> stmt…%left      AND%right     NOT%left      AND_AND%nonassoc  IS ISNULL NOTNULL %nonassoc  '<' '>' '=' LESS_EQUALS GREATER_EQUALS NOT_EQUALS…%%

上面是对于 rule 的定义,以 create table 为例:

create_table_stmt:  CREATE opt_temp_create_table TABLE table_name '(' opt_table_elem_list ')' opt_interleave opt_partition_by opt_table_with opt_create_table_on_commit  {    name := $4.unresolvedObjectName().ToTableName()    $$.val = &tree.CreateTable{      Table: name,      IfNotExists: false,      Interleave: $8.interleave(),      Defs: $6.tblDefs(),      AsSource: nil,      PartitionBy: $9.partitionBy(),      Temporary: $2.persistenceType(),      StorageParams: $10.storageParams(),      OnCommit: $11.createTableOnCommitSetting(),    }  }| CREATE opt_temp_create_table TABLE IF NOT EXISTS table_name '(' opt_table_elem_list ')' opt_interleave opt_partition_by opt_table_with opt_create_table_on_commit  {    name := $7.unresolvedObjectName().ToTableName()    $$.val = &tree.CreateTable{      Table: name,      IfNotExists: true,      Interleave: $11.interleave(),      Defs: $9.tblDefs(),      AsSource: nil,      PartitionBy: $12.partitionBy(),      Temporary: $2.persistenceType(),      StorageParams: $13.storageParams(),      OnCommit: $14.createTableOnCommitSetting(),    }  }

能够看出,除了上述所说的一些终结符和非终结符外,还有一个大括号,大括号外面的内容就是当匹配时进行的一些操作,次要就是构建出所须要的 AST。

其中 $1 对应的就是匹配到的第一个字符,$4 就是 table_name 这一部分,最初产生的 CreateTable 这个构造体就对应着 tree 包下的构造体。

type CreateTable struct {   IfNotExists   bool   Table         TableName   Interleave    *InterleaveDef   PartitionBy   *PartitionBy   Temporary     bool   StorageParams StorageParams   OnCommit      CreateTableOnCommitSetting   Defs     TableDefs   AsSource *Select}

通过生成的 sql.go 中的 parse 就能够将 token-stream 生成一个 AST 对应的构造。

总结

以上就是开务数据库的 SQL parser 词法解析和语法解析局部,次要是语法解析局部应用 Goyacc 工具将 sql.y 中的规定生成对应的语法分析器,将词法分析器生成的 token-stream 解析成制订好的树结构。具备这些根底后,咱们就能够进行语法的增加以及批改,减少更多的解析规定,为后续操作做好筹备。

END