共计 6925 个字符,预计需要花费 18 分钟才能阅读完成。
TiDB Hackathon 2022 炽热报名中!你报名了吗(还没报名看这里)?你有 idea 了吗(没有 idea 看这里)?
有了 idea,然而不够理解 TiDB,不晓得如何入手实际?本文将通过 step-by-step 的形式,介绍如何疾速给 TiDB 新增一个性能,让没有太多常识背景的人也能疾速上手。
ps:加入 TiDB 产品组的小伙伴,想给 TiDB 组件减少新性能的,快来围观!
假如咱们想要将 SST 文件导入 TiDB 中,通过新增 LOAD SST FILE <file_path>
语法来实现。
TiDB 数据库在收到一条 SQL 申请后,大略的执行流程是 生成 AST 语法树 -> 生成执行打算 -> 结构 Executor 并执行。咱们先来实现语法。
语法实现
要如何实现语法呢?咱们能够照葫芦画瓢,找一个相似的 LOAD DATA 语法作为葫芦,而后开始画瓢。
Step-1: 新增 AST 语法树
LOAD DATA
语法是用 ast.LoadDataStmt
示意的,咱们照葫芦画瓢在 tidb/parser/ast/dml.go
中新增一个 LoadSSTFileStmt
AST 语法树:
// LoadSSTFileStmt is a statement to load sst file.
type LoadSSTFileStmt struct {
dmlNode
Path string
}
// Restore implements Node interface.
func (n *LoadSSTFileStmt) Restore(ctx *format.RestoreCtx) error {ctx.WriteKeyWord("LOAD SST FILE")
ctx.WriteString(n.Path)
return nil
}
// Accept implements Node Accept interface.
func (n *LoadSSTFileStmt) Accept(v Visitor) (Node, bool) {newNode, _ := v.Enter(n)
return v.Leave(newNode)
}
Restore
办法用来依据 AST 语法树还原出对应的 SQL 语句。Accept
办法是不便其余工具遍历这个 AST 语法树,例如 TiDB 在预处理是会通过 AST 语法树的 Accept 办法来遍历 AST 语法树中的所有节点。
Step-2:新增语法
LOAD DATA
语法是通过 LoadDataStmt
实现的,咱们也照葫芦画瓢,在 tidb/parser/parser.y
中,新增 LoadSSTFileStmt
语法,这里须要批改好几处中央,上面用 git diff 展现批改:
diff --git a/parser/parser.y b/parser/parser.y
index 1539bb13db..079859e8a9 100644
--- a/parser/parser.y
+++ b/parser/parser.y
@@ -243,6 +243,7 @@ import (
sqlCalcFoundRows "SQL_CALC_FOUND_ROWS"
sqlSmallResult "SQL_SMALL_RESULT"
ssl "SSL"
+ sst "SST"
starting "STARTING"
statsExtended "STATS_EXTENDED"
straightJoin "STRAIGHT_JOIN"
@@ -908,6 +909,7 @@ import (
IndexAdviseStmt "INDEX ADVISE statement"
KillStmt "Kill statement"
LoadDataStmt "Load data statement"
+ LoadSSTFileStmt "Load sst file statement"
LoadStatsStmt "Load statistic statement"
LockTablesStmt "Lock tables statement"
NonTransactionalDeleteStmt "Non-transactional delete statement"
@@ -11324,6 +11326,7 @@ Statement:
| IndexAdviseStmt
| KillStmt
| LoadDataStmt
+| LoadSSTFileStmt
| LoadStatsStmt
| PlanReplayerStmt
| PreparedStmt
@@ -13496,6 +13499,14 @@ LoadDataStmt:
$ = x
}
+LoadSSTFileStmt:
+ "LOAD" "SST" "FILE" stringLit
+ {
+ $ = &ast.LoadSSTFileStmt{
+ Path: $4,
+ }
+ }
+
下面的批改中:
- 第 9 行是因为语法中
SST
是一个新的关键字,所以须要注册一个新的关键字。 - 第 17 行 和 25 行是注册一个新语法叫
LoadSSTFileStmt
。 - 第 33 – 40 行是定义
LoadSSTFileStmt
语法结构为:LOAD SST FILE <file_path>
,这里前 3 个关键字都是固定的,所以间接定义"LOAD" "SST" "FILE"
即可,第 4 个是文件门路,一个变量值,咱们用stringLit
来提取这个变量的值,而后再用这个的值来初始化ast.LoadSSTFileStmt
,其中 $4 是指第 4 个变量stringLit
的值。
因为引入了新的关键字 SST
,所以还须要在 tidb/parser/misc.go
中新增这个关键字:
diff --git a/parser/misc.go b/parser/misc.go
index 140619bb07..418e9dd6a4 100644
--- a/parser/misc.go
+++ b/parser/misc.go
@@ -669,6 +669,7 @@ var tokenMap = map[string]int{
"SQL_TSI_YEAR": sqlTsiYear,
"SQL": sql,
"SSL": ssl,
+ "SST": sst,
"STALENESS": staleness,
"START": start,
"STARTING": starting,
Step-3:编译和测试
编译生成新的 parser 文件。
cd parser
make fmt #格式化代码
make # 编译生成新的 parser 文件
咱们能够在 tidb/parser/parser_test.go
文件中的 TestDMLStmt
中新增一个测试,来验证咱们新增的语法失效了,上面是 git diff 展现的批改:
diff --git a/parser/parser_test.go b/parser/parser_test.go
index 7093c3889f..d2c75c4c59 100644
--- a/parser/parser_test.go
+++ b/parser/parser_test.go
@@ -666,6 +666,9 @@ func TestDMLStmt(t *testing.T) {{"LOAD DATA LOCAL INFILE'/tmp/t.csv'IGNORE INTO TABLE t1 FIELDS TERMINATED BY','LINES TERMINATED BY'\n';", true, "LOAD DATA LOCAL INFILE'/tmp/t.csv'IGNORE INTO TABLE `t1` FIELDS TERMINATED BY','"},
{"LOAD DATA LOCAL INFILE'/tmp/t.csv'REPLACE INTO TABLE t1 FIELDS TERMINATED BY','LINES TERMINATED BY'\n';", true, "LOAD DATA LOCAL INFILE'/tmp/t.csv'REPLACE INTO TABLE `t1` FIELDS TERMINATED BY','"},
+ // load sst file test
+ {"load sst file'table0.sst'", true,"LOAD SST FILE 'table0.sst'"},
+
而后跑测试:
cd parser
make test #跑 parser 的所有测试,疾速验证能够用 go test -run="TestDMLStmt" 命令只跑批改的 TestDMLStmt 测试
生成执行打算
TiDB 在生成 AST 语法树后,须要生成对应的执行打算。咱们须要先定义 LOAD SST FILE
的执行打算。同样的照葫芦画瓢,咱们先在 tidb/planner/core/common_plans.go
文件中找到 LOAD DATA
的执行打算 LoadData
, 而后开始画瓢定义 LoadSSTFile
执行打算:
// LoadSSTFile represents a load sst file plan.
type LoadSSTFile struct {
baseSchemaProducer
Path string
}
为了让 TiDB 能更具 ast.LoadSSTFileStmt
语法树生成对应的 LoadSSTFile
执行打算,
须要在 tidb/planner/core/planbuilder.go
文件中,参考 buildLoadData
办法,来实现咱们的 buildLoadSSTFile
办法,用来生成执行打算, 上面是 git diff 展现批改内容:
diff --git a/planner/core/planbuilder.go b/planner/core/planbuilder.go
index ad7ce64748..c68e992b35 100644
--- a/planner/core/planbuilder.go
+++ b/planner/core/planbuilder.go
@@ -734,6 +734,8 @@ func (b *PlanBuilder) Build(ctx context.Context, node ast.Node) (Plan, error) {return b.buildInsert(ctx, x)
case *ast.LoadDataStmt:
return b.buildLoadData(ctx, x)
+ case *ast.LoadSSTFileStmt:
+ return b.buildLoadSSTFile(x)
@@ -3979,6 +3981,13 @@ func (b *PlanBuilder) buildLoadData(ctx context.Context, ld *ast.LoadDataStmt) (return p, nil}
+func (b *PlanBuilder) buildLoadSSTFile(ld *ast.LoadSSTFileStmt) (Plan, error) {
+ p := &LoadSSTFile{
+ Path: ld.Path,
+ }
+ return p, nil
+}
+
结构 Executor 并执行
生成执行打算之后,就须要结构对应的 Executor 而后执行了。TiDB 是用 Volcano 执行引擎,你能够将相干的初始化工作放在 Open
办法中,将次要性能的实现都放在 Next
办法中,以及执行实现后,在 Close
办法中执行相干的清理和开释资源的操作。
咱们须要先定义 LOAD SST FILE
的 Executor,并让其实现 executor.Executor
接口,能够把相干定义放到 tidb/executor/executor.go
文件中:
// LoadSSTFileExec represents a load sst file executor.
type LoadSSTFileExec struct {
baseExecutor
path string
done bool
}
// Open implements the Executor Open interface.
func (e *LoadSSTFileExec) Open(ctx context.Context) error {logutil.BgLogger().Warn("----- load sst file open, you can initialize some resource here")
return nil
}
// Next implements the Executor Next interface.
func (e *LoadSSTFileExec) Next(ctx context.Context, req *chunk.Chunk) error {req.Reset()
if e.done {return nil}
e.done = true
logutil.BgLogger().Warn("----- load sst file exec", zap.String("file", e.path))
return nil
}
// Close implements the Executor Close interface.
func (e *LoadSSTFileExec) Close() error {logutil.BgLogger().Warn("----- load sst file close, you can release some resource here")
return nil
}
如果没有初始化工作和清理工作,你也能够不必实现 Open
和 Close
办法,因为 baseExecutor
曾经实现过了。
这里为了简化教程在 LoadSSTFileExec
Executor 中仅仅是输入了几条 Log,你须要将本人性能具体实现的代码放在这里。
而后为了让 TiDB 可能依据 LoadSSTFile
执行打算来生成 LoadSSTFileExec
Executor, 须要批改 tidb/executor/builder.go
文件,上面是用 git diff 展现的批改:
diff --git a/executor/builder.go b/executor/builder.go
index 1154633bd5..4f0478daa6 100644
--- a/executor/builder.go
+++ b/executor/builder.go
@@ -199,6 +199,8 @@ func (b *executorBuilder) build(p plannercore.Plan) Executor {return b.buildInsert(v)
case *plannercore.LoadData:
return b.buildLoadData(v)
+ case *plannercore.LoadSSTFile:
+ return b.buildLoadSSTFile(v)
case *plannercore.LoadStats:
return b.buildLoadStats(v)
case *plannercore.IndexAdvise:
@@ -944,6 +946,14 @@ func (b *executorBuilder) buildLoadData(v *plannercore.LoadData) Executor {return loadDataExec}
+func (b *executorBuilder) buildLoadSSTFile(v *plannercore.LoadSSTFile) Executor {
+ e := &LoadSSTFileExec{+ baseExecutor: newBaseExecutor(b.ctx, nil, v.ID()),
+ path: v.Path,
+ }
+ return e
+}
+
验证
到此,咱们曾经胜利的在 TiDB 中新增了一个“性能”,咱们能够编译 TiDB 并启动后验证下:
make #编译 TiDB server
bin/tidb-server # 启动一个 TiDB server
而后新起一个终端,用 mysql 客户端连上去试试新性能:
▶ mysql -u root -h 127.0.0.1 -P 4000
mysql> load sst file 'table0.sst';
Query OK, 0 rows affected (0.00 sec)
能够看到执行胜利了,并且在 tidb-server 的输入日志中,能够看到咱们这个性能的 Executor 执行时的日志输入:
[2022/09/19 15:24:02.745 +08:00] [WARN] [executor.go:2213] ["----- load sst file open, you can initialize some resource here"]
[2022/09/19 15:24:02.745 +08:00] [WARN] [executor.go:2225] ["----- load sst file exec"] [file=table0.sst]
[2022/09/19 15:24:02.745 +08:00] [WARN] [executor.go:2231] ["----- load sst file close, you can release some resource here"]
总结
本文的代码示例:https://github.com/pingcap/tidb/pull/37936/files
本文通过“照葫芦画瓢”的形式,教你如何在 TiDB 中新增一个性能,但也疏忽了一些细节,例如权限查看,增加齐备的测试等等,心愿能对读者有所帮忙。如果想要理解更多的常识背景和细节,举荐浏览 TiDB Development Guide 和 TiDB 源码浏览博客。