关于后端:ToplingDB-Zero-Copy

背景 ToplingDB 是 topling 开发的 KV 存储引擎，fork 自 RocksDB，进行了很多革新，其中最重要的部件是 ToplingZipTable, 是 BlockBasedTable 的代替品，性能更高而内存占用更低。ToplingZipTable 应用 CO-Index 与 PA-Zip 实现索引和数据的存储。CO-Index 指 Compressed Ordered Index, 是一类内存压缩的索引，无需解压，在压缩的状态下能够对索引间接搜寻，并且搜寻速度极快。从 String 类型的 Key，搜寻出一个密实的整数 ID。PA-Zip 指 Point Accessible Zip, 无需 BlockCache，能够十分疾速地按 ID 定点拜访单条数据。PA-Zip 也有非压缩的实现，例如 MyTopling(MySQL) 中长度固定且单条数据较短的表，用一个定长数组就能够十分高效地实现。在这种状况下，是能够实现 zero copy 的，但 RocksDB 中有一些问题导致无奈 zero copy。ToplingZipTable 间接应用 topling-zip 中的 BlobStore 类体系来实现 PA-Zip。2. RocksDB 为什么不能 zero copy2.1. SuperVersion 保活传统上，个别通过援用计数来标记对象的存活，然而多线程援用计数会导致 CPU 核间的频繁通信，导致多核不 Scale。所以 RocksDB 在 DB::Get 中，应用了一些技巧，防止了频繁的增减援用计数：对象实例级的 ThreadLocalPtr，每个线程援用一个 SuperVersion 对象，短暂放弃援用计数对于一个 DB 的只读操作：在操作开始处，取出该线程 TLS 的 SuperVersion 指针并将 TLS 指针设为 InUse，取出的 TLS 指针放到该函数的局部变量中，其它线程就察看不到这个 SuperVersion 了在操作完结处，将保留在函数局部变量中的 SuperVersion 指针放回线程 TLS，其它线程就能够察看到这个 SuperVersion 了任何线程创立新的 SuperVersion 对象时（例如 Flush/Compact 完结时），查看所有线程的 TLS，回收不在 InUse 状态的 SuperVersion，回收后相应 TLS 设为 null，这样当那个 TLS 所属的线程应用它时，发现是 null，就从全局获取最新的 SuperVersion 对 TLS 的操作均应用 atomic 以这样的形式，SuperVersion 的保活就不须要每个操作都增减援用计数了，从而实现多核线性 Scale。2.2. PinnableSlice 最高效的 DB::Get 重载版本是 value 为 PinnableSlice 的那个，对于 BlockBasedTable，PinnableSlice 会 Pin 住 BlockCache 中相应的 Block，防止了从 BlockCache 中把 value memcpy 到 std::string 中。PinnableSlice 反对可插拔的 Cleanable 接口，BlockCache 内存的回收就是通过这个 Cleanable 接口实现的。BlockCache 的生存期和 SuperVersion 是互相独立的，所以 PinnableSlice 在这里能够失常工作。2.3. mmap 对于应用 mmap 的 SST，因为有 PinnableSlice，所以实践上，咱们能够把 mmap 中存储 value 的内存间接通过指针返回给用户代码。然而问题就出在这里，SST 是 (间接) 绑定到 SuperVersion 的，要让用户代码拜访 SST 的 mmap，那在用户代码拜访 value 期间就必须保活相应的 SuperVersion。从 DB::Get 返回时，SuperVersion 就放回 TLS 了，从而可能被其它线程回收，用户代码就不能平安地拜访从属于那个 SuperVersion 的 SST 的 mmapRocksDB 本身的 PlainTable 就应用了 mmap，面对这个问题，PlainTable 偷了个懒，只有在 immortal 的状况下，才把 mmap 内存间接返回给用户代码。什么状况下是 immortal 呢？应用了 DB::OpenForReadOnly 的状况下。这个限度就过于刻薄，实际中很难满足！3. ToplingDB 的解决方案首先，咱们绝不能为了 Zero Copy 而毁坏 API 兼容性，必须利用现有的 API 实现 Zero Copy。咱们在 ReadOptions 下面做文章，给 ReadOptions 减少两个办法 StartPin/FinishPin，pin 的对象是 super version：如果想要获取 zero copy 的收益，就在调用 Get 前 StartPin，应用完 Get 回来的 value 之后 FinishPin 如果不想改代码，就只是没有 zero copy，所有跟从前一样用户须要关怀的扭转：diff –git a/include/rocksdb/options.h b/include/rocksdb/options.h
— a/include/rocksdb/options.h
+++ b/include/rocksdb/options.h
@@ -1735,6 +1735,13 @@ struct ReadOptions {
std::shared_ptr<struct ReadOptionsTLS> pinning_tls = nullptr;
+
// pin SuperVersion to enable zero copy on mmap SST
void StartPin();
void FinishPin();
+
~ReadOptions();
ReadOptions();
ReadOptions(bool cksum, bool cache);
};
实现细节都在 ReadOptionsTLS 中，求知欲强的用户能够看一下具体实现。当然，相应地，SST 的实现局部也要为此做一点适配。咱们给 PlainTable 做了相应的适配，批改少到不堪设想。pinner 设为一个默认结构的 Cleanable，就是指不须要对 value 深拷贝，value 指向的内存也不须要做任何清理工作；pinner 设为 null 时，会对 value 做深拷贝这个批改还带来一个额定收益：当要一一 Get 多条数据时，只须要一次 StartPin/FinishPin，而 StartPin 时会将 SuperVersion 指针放到 ReadOptionsTLS 中，通过 pinning_tls 获取 SuperVersion 防止了绝对低廉的 ThreadLocalPtr 拜访，每次 Get 节俭了大概 30 纳秒。4. db_bench 适配咱们给 db_bench 减少了一个选项 -enable_zero_copy，开启这个选项，Get 就会应用 StartPin/FinishPin 以应用 zero copy。4.1. ToplingZipTable Zero Copy 在阿里云 Xeon 8369HB 的云主机上，咱们测进去这样的性能(-key_size=8 -value_size=20)：readrandom:
0.234 micros/op 4279978 ops/sec 23.365 seconds 100000000 operations;
114.3 MB/s (100000000 of 100000000 found)Compact 之后，单个 Get 操作 234 纳秒，这其中，DB::Get 占了 83%，约合 194 纳秒，db_bench 驱动代码占 17%，真正干活的 ToplingZipTable::Get 只占了 18%，合 42 纳秒：
仅 Flush 之后，不 Compact，单个 Get 操作 254 纳秒，比 234 略微慢一点 readrandom:
0.254 micros/op 3939416 ops/sec 25.384 seconds 100000000 operations;
105.2 MB/s (100000000 of 100000000 found)测试过程参考这里，记得增加命令行参数 -enable_zero_copy=true，同时，对 db_bench_enterprise.yaml 做小幅批改。— a/sample-conf/db_bench_enterprise.yaml
+++ b/sample-conf/db_bench_enterprise.yaml
@@ -119,16 +119,16 @@ CFOptions:
default:
max_write_buffer_number: 4
memtable_factory: “${cspp}”
write_buffer_size: 8M
write_buffer_size: 128M
# set target_file_size_base as small as 512K is to make many SST files,
# thus key prefix cache can present efficiency
# 把 target_file_size_base 设得很小是为了产生很多文件，从而体现 key prefix cache 的成果
target_file_size_base: 512K
target_file_size_base: 64M
target_file_size_multiplier: 1
table_factory: dispatch
compaction_options_level:
```
L1_score_boost: 1
```
max_bytes_for_level_base: 4M
max_bytes_for_level_base: 400M
max_bytes_for_level_multiplier: 4
#level_compaction_dynamic_level_bytes: true
level0_slowdown_writes_trigger: 20
@@ -144,7 +144,7 @@ DBOptions:
max_level1_subcompactions: 7
inplace_update_support: false
WAL_size_limit_MB: 0
statistics: “${stat}”
statistics: “${stat}”

allow_mmap_reads: true
databases:
db_bench_enterprise:
4.2. 小插曲这两头有段小插曲，开始在用 db_bench 测试验证时，发现在 Version::Get 中有意想不到的 ReadOptions 析构函数调用，占比还挺高：

对照了一下代码，原来在 Version::Get 中，有一行代码：BlobFetcher blob_fetcher(this, read_options);
ReadOptions 的拷贝就在 BlobFetcher 中，这个很好修，Version::Get 中 read_options 的生存期笼罩了 blob_fetcher, 把拷贝改成援用即可，然而万一 BlobFetcher 在其它中央的生存期没有被 read_options 笼罩，不就出问题了，所以 grep 一下代码，还真找到了这样的中央，一起修掉。4.3. Read 采样 RocksDB 会对 Get 操作进行采样，采样过程中须要计算随机数，随机数发生器是个 Thread Local，这个过程的耗时占比原本很小，然而 Zero Copy 之后，整体耗时也就 200 纳秒，它的绝对占比就比拟大了，所以咱们对此减少了一个环境变量配置：TOPLINGDB_GetContext_sampling，可配置为 {kAlways,kNone,kRandom}，其中 kRandom 是默认行为，与上游 RocksDB 保持一致。为了升高采样对耗时的扰动，测试中咱们设置环境变量 TOPLINGDB_GetContext_sampling=kNone4.4. BlockBasedTable, Cache 管够，但无 Zero Copy 换用 BlockBasedTable 进行雷同的测试（Compact 之后）：readrandom:
2.652 micros/op 377083 ops/sec 265.194 seconds 100000000 operations;
10.1 MB/s (100000000 of 100000000 found)尽管 BlockBasedTable 没有 Zero Copy，但后面咱们提到，它会用 PinnableSlice pin 住 value 援用的 Block，也不须要 memcpy；然而即便如此，性能依然差 10 倍，当然，必须再次强调测试过程中的阐明：该测试条件均是单方的最优条件。ToplingZipTable 应用本人的通用索引 NestLoudsTrie 时，搜寻 Key 的速度会慢一些，启用压缩时，获取 Value 的速度会慢一些。外加一条：ToplingZipTable 启用压缩时就没有 zero copy 了。

关于后端:ToplingDB-Zero-Copy

statistics: “${stat}”

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）