关于go:用-Antlr-重构脚本解释器

前言

在上一个版本实现的脚本解释器 GScript 中实现了根本的四则运算以及 AST 的生成。

当我筹备再新增一个 % 取模的运算符时，会发现工作很繁琐而且简直都是反复的；次要是两步：

须要在词法解析器中新增对 % 符号的反对。
在语法解析器遍历 AST 时对 % token 实现具体逻辑。

其中的词法解析和遍历 AST 齐全是反复工作，所以咱们可否可能简化这两步呢？

Antlr

Antlr 就是做帮咱们解决这些问题的常用工具，利用它咱们只须要编写词法文件，而后就能够主动生成词法、语法解析器，并且能够生成不同语言的代码。

上面以 GScript 的示例来看看 antlr 是如何帮咱们生成词法分析器的。

func TestGScriptVisitor_Visit_Lexer(t *testing.T) {    expression := "(2+3) * 2"    input := antlr.NewInputStream(expression)    lexer := parser.NewGScriptLexer(input)    for {        t := lexer.NextToken()        if t.GetTokenType() == antlr.TokenEOF {            break        }        fmt.Printf("%s (%q) %d\n",            lexer.SymbolicNames[t.GetTokenType()], t.GetText(),t.GetColumn())    }}

//output: ("(") 0DECIMAL_LITERAL ("2") 1PLUS ("+") 2DECIMAL_LITERAL ("3") 3 (")") 4MULT ("*") 6DECIMAL_LITERAL ("2") 8

Antlr 会主动将咱们的表达式解析为 token，遍历 token 时还能拿到该 token 所在的代码行数、地位等信息，在编译期间做语法查看十分有用。

要实现这些咱们只须要编写词法、语法规定文件即可。

方才的示例所对应的词法、语法规定如下：

expr    : '(' expr ')'                        #NestedExpr    | liter=literal #Liter    | lhs=expr bop=( MULT | DIV ) rhs=expr #MultDivExpr    | lhs=expr bop=MOD rhs=expr            #ModExpr    | lhs=expr bop=( PLUS | SUB ) rhs=expr #PlusSubExpr    | expr bop=(LE | GE | GT | LT ) expr # GLe    | expr bop=(EQUAL | NOTEQUAL) expr # EqualOrNot    ;DECIMAL_LITERAL:    ('0' | [1-9] (Digits? | '_'+ Digits)) [lL]?;

残缺规定：https://github.com/crossoverJie/gscript/blob/main/GScript.g4

运行：

antlr -Dlanguage=Go -o parser -visitor -no-listener GScript.g4

就能够帮咱们生成 Go 的代码（默认是 Java），对于 Antlr 的词法、文法规定以及装置步骤请参考官网。

而咱们要实现具体的语法逻辑时只须要实现相干的接口，Antlr 会主动遍历 AST（当然也能够手动管制），同时在拜访不同的 AST 节点时会回调咱们本人实现的接口，这样咱们就能编写本人的语法规定了。

以这里的新增的取模运算为例：

func (v *GScriptVisitor) VisitModExpr(ctx *parser.ModExprContext) interface{} {    lhs := v.Visit(ctx.GetLhs())    rhs := v.Visit(ctx.GetRhs())    return lhs.(int) % rhs.(int)}

当 Antlr 回调 VisitModExpr 办法时，便能获取到 % 符号左右两侧的数据，这时只须要做相干运算即可。

基于这个模式这次新增了一个 statement，具体语法如下：

func TestGScriptVisitor_VisitIfElse8(t *testing.T) {    expression := `if(3!=(1+2)){    return 1+3} else {    return false}`    input := antlr.NewInputStream(expression)    lexer := parser.NewGScriptLexer(input)    stream := antlr.NewCommonTokenStream(lexer, 0)    parser := parser.NewGScriptParser(stream)    parser.BuildParseTrees = true    tree := parser.Prog()    visitor := GScriptVisitor{}    var result = visitor.Visit(tree)    fmt.Println(expression, " result:", result)    assert.Equal(t, result, false)}

Antlr 还有其余各种劣势，比方能够解决：

左递归。
二义性。
优先级。

等问题。

这里也举荐在 IDE 中装置 Antlr 的插件，这样就能够直观的查看 AST 语法树，能够帮咱们更好的调试代码。

降级 xjson

借助 GScript 提供的 statement，xjson 也提供了有些有意思的写法：

因为 xjson 的四则运算语法没有应用 Antlr 生成，所以为了能反对 GScript 提供的 statement 须要手写许多词法代码。

这也体现了 Antlr 这类前端工具的重要性，效率晋升是非常明显的。

总结

借助于 Antlr 后续 GScript 会持续反对函数调用、更欠缺的类型零碎、面向对象等个性；感兴趣的敌人请继续关注。

源码地址：
https://github.com/crossoverJie/gscript

https://github.com/crossoverJie/xjson