关于数据库:数据库恢复子系统的常见技术和方案对比二

作者：实验室小陈 / 大数据凋谢实验室

上一篇文章《数据库复原子系统的常见技术和计划比照（一）》中，咱们根本介绍了数据库管理系统中的 Logging & Recovery 复原子系统，具体探讨了基于 Physical Logging 的支流复原算法 ARIES 的概念和技术实现。本文将华师大宫学庆传授对于介绍 Logical Undo Logging 的原理以及两种数据库系统 SQL Server(Azure)和 Silo 的复原技术的介绍分享给大家。

— Logical Undo Logging —

在上篇文章中，咱们简略介绍了 Early Lock Release 的优化思路：通过将索引上的 Lock 提前开释以进步并发水平，但同时会在事务之间产生依赖关系，导致级联回滚。比方第一个事务曾经开释锁，但在刷日志时呈现故障须要回滚，此时锁已被下一个事务取得，那下一个事务要和后面的事务一起回滚，极大地影响零碎性能。

基于这样的状况，复原零碎中引入了 Logical Undo Logging，在肯定水平上解决了上述问题。Logical Undo Logging 的根本思维是在事务回滚时撤销批改操作，而不是对数据的批改，如插入的撤销是删除，对数据项 + 1 的撤销是对数据项 -1。

此外解决 Logical Undo 时引入了 Operation Logging 的概念，即记录日志时对事务一些操作采纳非凡的日志记录形式，称为 Transaction Operation Logging。当 Operation 开始时，会记录一条非凡的 Operation Logging，模式为 log<Ti, Oj, operation-begin>，其中 Oj 为惟一的 Operation ID。在 Operation 执行过程中，零碎失常进行 Physical Redo 和 Undo 日志记录；而 Operation 完结后，则会记录非凡的 Logging <Ti, Oj, operation-end, U>，其中 U 便是对于曾经进行的一组操作的 Logical Undo 操作。

举例来说，如果索引插入新键值对（K5, RID 7）到叶子节点 Index I9，其中 K5 存储在 Index I9 页面的 X 地位，替换原值 Old1；RID7 存储在 X + 8 地位上替换原值 Old2。对于该事务，记录日志时会在最后面增加操作开始记录 <T1, O1, operation-begin>，两头 Physical Logging 失常记录数值的更新操作，完结时记录完结日志 <T1, O1, operation-end,（delete I9, K5, RID7）>，其中（delete I9, K5, RID7）是对 T1 操作的 Logical Undo，即删除 I9 节点页面的 K5 和 RID7。

在 Operation 执行完结后，能够提前开释锁，容许其余事务能胜利向该页面插入 < Key，Record ID>，但导致所有 Key 值从新排序，使得 K5 和 RID7 来到 X 和 X + 8 的地位。此时如果进行 Physical Undo，须要将 K5 和 RID7 从 X 和 X + 8 撤回，但理论中二者的地位已产生扭转，按原日志记录进行 Physical Undo 并不事实。但从逻辑上看，Undo 只须要把 K5 和 RID7 从索引节点 I9 删掉即可，因而在日志中退出操作日志（delete I9, K5, RID7），示意如果进行 Undo，只须要依照这个逻辑指令进行即可。

在回滚时，系统对日志进行扫描：如果没有 operation-end 的日志记录，则进行 Physical Undo，这是因为只有在 Operation 完结时才会开释锁，否则就阐明锁还没有被开释，其余事务不可能批改其锁定的数据项。如果发现存在 operation-end 日志，阐明锁曾经被开释掉，此时只能进行 Logical Undo，把 begin operation 和 end operation 之间的所有日志跳过，因为这些日志的 Undo 已被 Logical Undo 代替。如果在 Undo 时发现了 <T,O, operation-abort> 日志，则阐明这个 Operation 曾经 Abort 胜利，能够间接跳过两头日志，回到该事务的 <T, O,operation-begin> 持续往上 Undo；当 Undo 到 <T,start> 的日志时，表明该事务的全副日志均曾经撤销实现，记录 <T, abort> 日志示意 Undo 完结。

其中须要留神的是，所有 Redo 操作都是 Physical Redo，这是因为 Logical Redo 的实现非常复杂，例如须要决定 Redo 程序等，因而大多数零碎里所有的 Redo 信息都是 Physical 的。此外，Physical Redo 和锁提前开释并不抵触，因为 Redo 只有在呈现故障时才会进行，此时零碎挂掉导致所有的锁曾经都没有了，重做的时候要从新申请锁。

— SQL Server：Constant Time Recovery —

对于大多数商业的数据库系统如 SQL Server 等，大多采纳 ARIES 复原零碎，因而 Undo 所有未 Commit 事务的工作量与每个事务所做的工作内容成正比。事务做的操作越多，Undo 所破费的工夫就越长。因为事务操作可能是一条语句但更新很多记录，Undo 就须要对记录逐条撤销，导致撤销工夫可能过长。尽管正确性失去保障，但对于云服务或者对可用性要求高的零碎将难以承受。为了应答这种状况，呈现了 CTR 优化技术（Constant Time Recovery），将 ARIES 零碎和多版本并发管制相结合，实现固定工夫复原。固定工夫复原是指不论遇到什么状况，都利用数据库系统中的多版本信息，保障复原操作在确定的工夫内实现。其根本思维是利用多版本数据库系统中的不同数据版本，确保数据 Undo 到一个正确的状态，而不是用原来 WAL 日志里的信息进行复原。

MS-SQL 的并发管制

SQL Server 在 05 年开始引入了多版本并发管制，但晚期多版本仅用来实现 Snapshot 隔离级别而非复原，支持系统依据 Snapshot 的工夫戳去读数据库中的数据。在更新数据时，多版本并发管制能够在数据 Page 上对记录进行就地更新，但旧版本没有丢掉，而是被独自放在 Version Store 中。Version Store 是一个非凡的表，只容许一直的增加数据（Append-Only），通过指针链接指出该记录的老版本，老版本又会指向上一个更老的版本，进而形成一个数据版本链。在拜访数据时，能够依据事务的工夫戳来决定读取哪个版本数据。因而，晚期多版本 Version Store 的更新并不需要记录日志，因为一旦呈现故障，重启当前所有工夫戳都是最新的，只有放弃最初一个版本即可，不会有比这个版本更早的 Snapshot 拜访需要。对于以后 Active 的事务，能够依据当下工夫戳，通过 Garbage Collection 机制将老版本抛弃。

CTR 基于原 Version Store 进行优化，实现了 Persistent Version Store，使得旧版本可能长久化存储。在 CTR 技术下，零碎更新 Version Store 时会记录日志为复原进行的筹备，使得 Version Store 的体量和开销变大，于是呈现两种实现老版本存储的策略 In-Row Versioning 和 Off-RowVersioning。

In-Row Versioning是指对于更新一条记录的操作，如果只是改变很小的数据量，就不须要放进 Version Store 存储，而是在记录后加一个 delta 值，阐明属性的数值变动。其目标是为了升高 Versioning 时的开销，因为同一个地位改变的磁盘 I / O 绝对较小。

Off-Row Versioning 则 有一个非凡的零碎表，用来存储所有表的老版本，通过 WAL 记录 Insert 操作的 Redo 记录。当批改量较大导致 In-Row Versioning 无奈齐全保留数据更新时，便采纳 Off-Row Versioning 形式。如下图中，A4 行的 Col 2 为 444，在更新为 555 后会写入一个 delta，用于记录版本变动。但这种批改受限于数据量的大小，以及记录自身所在的页面上是否有闲暇空间。如果有闲暇空间就能够写入，若没有就须要把更新的记录放入 Off-Row Versioning 表中。

复原过程中，CTR 分为三个阶段实现（Analytics、Redo 和 Undo）。分析阶段和 ARIES 相似，用来确定每一个事务的当下状态如 Active、Commit 和须要 Undo 的事务。在 Redo 时，零碎会把主表和 Version Store 的表重放一遍，都复原到呈现 crash 的状态。Redo 实现后，数据库就能够上线对外服务。CTR 的第三步是 Undo，在分析阶段完结后，曾经晓得哪些事务未提交，Undo 阶段能够间接将这些事务标记为 Abort。因为每条 Record 的不同版本都会记录与该版本相干的事务号，因而后续事务在读到该版本时，首先判断相干事务的状态，如果是 Abort 就疏忽掉该版本而读上一个旧版本。这样的复原形式使得在读到不可用版本时，须要依据链接去找前一个版本，尽管会带来额定性能开销，但缩小了数据库的下线工夫。在持续提供服务后，零碎能够在剩下工夫进行 Garbage Collection，将生效老版本缓缓革除，这样的机制叫做 Logical Revert。

Logical Revert

Logical Revert 有两种形式。第一种是用后盾过程 Background Cleanup 把所有数据块扫描一遍，判断哪些是 Garbage 能够回收。判断条件为：如果主表中最初一个版本来自于曾经 Abort 的事务，那就从 Version Store 里拿上一个曾经 Commit 的旧版本放到主表。即便此时不做这件事件，前面应用数据时也是会到 Version Store 中读数据。因而，能够通过后盾的 Garage Collection 过程，缓缓进行版本搬迁。第二种是如果事务在更新数据时，发现主表里的版本是 Abort 的事务的版本，就会笼罩该版本，而此时这个事务的正确版本应该在 Version Store 中。

能够看到，CTR 的复原是一个固定工夫，只有前两个阶段完结即可，而前两个阶段所需工夫实际上只与事务的 Checkpoint 无关。如果做 Checkpoint 的距离是依照固定的日志大小决定，当 Redo 阶段完结，数据库便能够复原工作，且复原工夫不会超过一个固定值。

— Silo：Force Recovery —

Silo 是哈佛大学和 MIT 单干钻研的一个高性能内存数据库系统原型，解决了并发水平过高导致的吞吐率降落问题。如果一个 CPU 内核对应一个线程来执行事务，在不存在竞争的状况下，吞吐率随着核数减少而减少，但高到肯定水平后会呈现降落，可能的状况是因为呈现了某些资源竞争所导致的瓶颈。只管在事务执行过程中每个线程独自执行，但最终所有事务在提交前都须要拿到事务 ID，事务 ID 是全局范畴的，事务通过原子性操作 atomic_fetch_and_add(&global_tid)取得 commit 时的 ID。而事务 ID 的调配通过全局的 Manager 角色实现，在事务申请 ID 时，Manager 会通过计数 + 1 来更新事务计数器，保障事务 ID 的全局惟一且递增，因而 Manager 写操作的速度会是零碎性能的下限。当并发越来越高且事务都去申请 ID 时，就会呈现竞争关系使得等待时间变长，导致吞吐率降落。

乐观的并发管制

对于性能瓶颈问题，Silo 的解决思路是多核并发工作 + 共享内存的数据库里采纳乐观并发管制。乐观并发管制在《内存数据库解析与主流产品比照（三）》中介绍过，指事务在执行时认为相互之间没有任何影响，仅在提交时查看是否存在抵触，如果没有抵触再去申请全局的事务 ID 实现 Commit。而 Silo 通过设计 Force Recovery 勾销了所需的全局事务 ID，应用 Group Commit 的概念，将工夫分成多个 Epoch，每个 Epoch 为 40 毫秒。Epoch 蕴含了以后时间段波及的多个事务，因而能够通过提交 Epoch 的形式将这一组事务一起提交，不须要为每个事务逐个申请全局事务 ID。但这种设计的缺点在于如果事务执行工夫超过 40 毫秒，带来的跨级会对提交和复原带来影响。

在 Silo 中，每个事务由 Sequence Number + Epoch Number 来辨别，Sequence Number 用来决定执行过程中事务的程序，通过 Sequence Number 和 Epoch Number 独特决定复原策略。每个事务会有事务 ID（TID），事务依照 Epoch 来进行 Group Commit，整体的提交依照 Epoch Number 的先后实现序列化。事务 ID 为 64 位，由状态位、Sequence Number 和 Epoch Number 独特组成，其中高位是 Epoch Number，两头是 Sequence Number，前三位是状态位。每条记录都会保留对应的事务 ID，其中状态位用来寄存拜访记录时的 Latch 锁等信息，内存数据库和传统基于磁盘的 DBMS 数据库相比，其中一个重要区别就是锁的治理是和记录放在一起，并不会另外治理 Data Buffer 和 Locking Table。

事务提交的三个阶段

因为 Silo 采纳规范的乐观并发管制，因而只有在提交时才会查看是否存在抵触。在 pre-commit 阶段，读数据项时会把数据项中的事务 ID 存入 Local Read-Set，随后再读取数值；而在批改数据记录时，也须要把批改的数据记录放入 Local Write-Set 里。

Silo 事务提交时候三个阶段，第一步为 Local Wite-Set 里所有要写的记录拿到锁，锁信息保留在事务 ID 中的状态位，通过原子操作 Compare and Set 获取；随后从以后的 Epoch 读出全副事务。零碎里有专门线程负责更新 Epoch（每 40ms+1），所有事务不会去竞争写 Epoch Number 而只有读该值即可。事务提交的第二步是查看 Read-Set，Silo 中每个数据项都蕴含最初一个对其进行更新的事务的 ID，如果记录的 TID 发生变化或记录被其余事务锁住，阐明从读到提交的过程中记录曾经更改，须要进行 Rollback。最初是生成事务 TID，在新事务 Commit 时，TID 中的 Sequence Number 应该是一个大于所有读到的 Record 的事务 ID 的最小值，以保障事务递增。提交后只有全副事务落盘后，才会返回后果。

Recovery——SiloR

SiloR 是 Silo 的复原子系统，应用 Physical Logging 和 Checkpoints 来保障事务的持久性，并在这两个方面采纳并行复原策略。后面提到，内存数据库中的写日志操作速度最慢，因为日志波及写盘，磁盘 I / O 是整个零碎架构的性能瓶颈。因而 SiloR 采纳并发形式写日志，并存在以下假如：零碎里每个磁盘有一个日志线程，用来服务一组工作线程，日志线程和一组工作线程共享一个 CPU Socket。

基于此假如，日志线程须要保护日志缓冲区池（池中有多个日志缓冲区）。一个工作线程如果要执行，首先须要向日志线程索要一个日志缓冲区写日志，写满后交还日志线程落盘，同时再取得新的日志缓冲区；如果没有可用的日志缓冲区，工作线程便会阻塞。日志线程会定时将缓冲区刷到磁盘，缓冲区空进去后，能够持续交给工作线程解决。对于日志文件，每 100 个 Epoch 生成 1 个新日志文件，旧日志文件依照固定规定生成文件名，文件名最初局部用来标识日志中最大的 Epoch Number；日志内容则记录了事务的 TID 和 Record 更新的汇合(Table, Key, Old Value -> New Value)。

下面介绍了多核 CPU 中一个核所解决的事件，实际上 CPU 中每个核都以同样的形式工作，会有一个专用线程来追踪目前哪些日志曾经全副刷到磁盘上，并把最新曾经落盘的 Epoch 写到磁盘上的固定地位。所有事务通过比拟本人以后的 Epoch 和曾经落盘的 Persistent Epoch（以下简称 Pepoch），如果小于等于 Pepoch，表明日志曾经落盘，能够向客户端返回。

复原过程

和 ARIES 复原零碎一样，SlioR 也要做 Checkpoints。SlioR 的第一步是把最初一个检查点的数据读出再进行复原；因为内存数据库不对索引做日志，因而索引须要在内存中重构。第二步是日志回放，内存数据库只做 Redo 不做 Undo，Redo 操作并不是和 ARIES 一样按失常日志程序进行，而是从后向前执行间接更新到最新版本。在日志回放时，先查看 Pepoch 的日志文件，找出最新的 Pepoch 号，但凡超过该 Pepoch 号的日志记录，则认为对应的事务没有返回给客户端，因而能够疏忽。日志文件的复原采纳 Value Logging，对于每条日志，检查数据的 Record 是否曾经存在，如果不存在就依据日志记录生成数据 Record；如果存在则比拟 Record 和日志中的 TID。如果日志中的 TID 大于 Record 中的 TID，就证实须要 Redo，用日志中的新数据值来替换旧值。能够看到，SiloR 的 Redo 不是像 ARIES 一样一步步复原到故障现场，因为 ARIES 的目标是要将磁盘上的数据恢复到最终正确状态，而 SiloR 是要把内存当中的数据恢复到最新正确状态。

— In-Memory Checkpoint —

对于内存数据库，复原零碎相比磁盘 DBMS 零碎较为简单些，只有对数据做日志即可，索引则不须要，且只需 Redo 日志而不需 Undo 日志。所有数据都是间接笼罩批改，不须要治理 Dirty Page，不会存在 Buffer Pool 和缓冲区落盘问题。但内存数据库仍受限于日志同步工夫开销，因为日志仍旧要刷到非易失性存储（磁盘）。晚期 80 年代时，内存数据库的钻研都是假如内存数据不会失落，如带电池的内存（断电后还能够用电池撑持一段时间工作）；还有非易失性内存 NVM（Non-Volatile Memory）等技术，但目前这些技术还远达不到广泛应用，仍旧要思考长久化存储。

长久化零碎要求对性能影响最小，不能影响到吞吐量和提早。为缩小对事务执行的影响，内存数据库谋求的第一指标是复原速度，即在故障后能够最快工夫内实现复原。因而串行复原无奈满足速度要求，目前有很多钻研工作都集中在对内存数据库的并行日志钻研，而并行使得对于锁和 Checkpoints 的实现都变得复杂。

对于 In-Memory 的 Checkpoints，实现机制通常和并发管制严密交融，并发管制设计决定了检查点如何实现。现实的 In-Memory 中 Checkpoints 第一个要求是不能影响失常的事务执行，并且不能引入额定提早以及占用太多内存。

Checkpoints 品种：Checkpoints 分为一致性 Checkpoints 和 Fuzzy Checkpoints 两类。一致性 Checkpoints 指产生的查看点中的数据不蕴含任何未提交的事务，如果蕴含则在 Checkpoints 时去掉未提交的事务；Fuzzy Checkpoints 蕴含曾经提交和未提交的事务，在复原时才把未提交的事务去掉。

Checkpoints 机制：Checkpoints 机制分为两种，第一种能够通过开发数据库系统本身性能来实现 Checkpoint，比方应用多版本存储来做 Snapshot；第二种能够通过操作系统级别的 Folk 性能，拷贝出过程的子过程；随后把内存中所有数据拷贝一遍，但须要额定操作去回滚正在执行且还未提交的批改。

Checkpoints 内容：内容上 Checkpoint 分两种类型，一种是每次 Checkpoint 都全量拷贝数据；还有一种是增量 Checkpoint，每次只做本次与上一次之间产生的增量内容。二者差别在于 Checkpoint 时数据量以及复原时所须要的数据量的区别。

Checkpoints 频率：有三种 Checkpoint 频率。一是基于工夫的定周期 Checkpoint；二是基于固定日志的大小的 Checkpoint；最初一种是强制性 Checkpoint，如数据库下线后强制进行 Checkpoint。

— 本文小结 —

在本次两篇文章专栏中，咱们对数据库系统的复原子系统进行了介绍，别离介绍了 Physical Logging 的支流复原零碎 ARIES 和 Logical Undo Logging 的相干概念和技术实现。此外，咱们介绍了两个数据库系统的复原策略——SQL Server 的 CTR 固定工夫复原以及内存数据库系统 Silo 的 Force Recovery 复原原理。下一讲将探讨数据库系统的并发控制技术。

参考文献：

C. Mohan, Don Haderle, Bruce Lindsay, Hamid Pirahesh, and Peter Schwarz. 1992. ARIES: A Transaction Recovery Method Supporting Fine-Granularity Locking And Partial Rollbacks Using Write-Ahead Logging. ACM Trans. Database Syst. 17, 1 (March 1992), 94–162.
Antonopoulos, P., Byrne, P., Chen, W., Diaconu, C., Kodandaramaih, R. T., Kodavalla, H., … & Venkataramanappa, G. M. (2019). Constant time recovery in Azure SQL database. Proceedings of the VLDB Endowment, 12(12), 2143-2154.
Zheng, W., Tu, S., Kohler, E., & Liskov, B. (2014). Fast databases with fast durability and recovery through multicore parallelism. In 11th {USENIX} Symposium on Operating Systems Design and Implementation ({OSDI} 14) (pp. 465-477).
Ren, K., Diamond, T., Abadi, D. J., & Thomson, A. (2016, June). Low-overhead asynchronous checkpointing in main-memory database systems. In Proceedings of the 2016 International Conference on Management of Data (pp. 1539-1551).
Kemper, A., & Neumann, T. (2011, April). HyPer: A hybrid OLTP&OLAP main memory database system based on virtual memory snapshots. In 2011 IEEE 27th International Conference on Data Engineering (pp. 195-206). IEEE.