关于程序员:我用几个-bit-实现了-LRU你不好奇吗

5次阅读

共计 2728 个字符，预计需要花费 7 分钟才能阅读完成。

提到缓存，咱们必定都不生疏，因为大部分零碎的数据都存在局部性，即有些数据是常常被应用到的，咱们能够将其先缓存起来，这样，一方面能进步零碎的吞吐量；另一方面也能升高数据库等第三方零碎的申请压力。

缓存置换，是指当缓存满了之后，这时候再有新的数据须要缓存时，须要淘汰掉缓存中的一个条目，给新数据腾出地位。如果一个缓存置换方案设计的不合理，导致咱们常常在缓存中找不到想要的数据，这时候，须要频繁进行缓存置换，缓存的作用很小，甚至是负作用，原本只须要申请一次内部零碎，当初还额定减少对缓存零碎的读写。

当须要从缓存中淘汰数据时，咱们心愿能淘汰那些未来不可能再被应用的数据，保留那些未来还会频繁拜访的数据，但问题是缓存并不能预言将来。一个解决办法就是通过 LRU 进行预测：最近被频繁拜访的数据未来被拜访的可能性也越大。

常见的 LRU 应用哈希链表实现，哈希链表是双向链表和哈希表的结合体。

查问时，利用哈希表，能够在 O (1) 的复杂度下疾速找到某个 key 是否在缓存 (链表) 并读取出值；每次拜访后，会将缓存条目挪动到链表头。这样，最近始终没有拜访的数据就会处于链表尾部，产生缓存置换时，删除链表尾部的数据，并将新数据写入链表头部。

为什么应用双向链表，应用单向链表有什么问题吗？应用双向链表是为了在挪动缓存数据到表头的复杂度为 O (1)。挪动缓存数据在链表中的地位等价于先把节点删除，再把节点挪动到表头地位，删除时，咱们须要同时晓得节点的前驱节点和后驱节点别离是哪个，能力将他们相连。单向链表须要对链表进行遍历能力获取前驱节点，显然不能满足要求。

下面的 LRU 实现用到了一个双向链表来记录数据的最近拜访状况，每个链表节点须要保护一个前驱指针和一个后驱指针，当缓存量较大时，两个指针额定占用的内存也是不可漠视的。所以，在缓存数据库 redis 中，为了节俭内存的占用，实现了一种基于采样的近似 LRU 置换算法。

缓存数据仍然通过一个哈希表治理，通过 key 能够疾速找到对应的数据。每个缓存数据除了 key-value 之外，额定多保留一个最初拜访的工夫戳 last_read_time。产生缓存置换时，随机选出 N 个缓存数据，淘汰掉其中最久未被拜访的数据。

这种计划，尽管可能每次过滤的不是整个缓存中最久未被拜访的数据，但计算简略，执行效率也是 O (1) 级别的。而且，这个计划能进一步优化，咱们每次淘汰时，可能上一次采样淘汰后剩下的 N-1 个数据中，比下一次采样失去的 N 个数据的最初一次拜访工夫都早，这种状况第一次采样剩下的那几个老数据并不会被淘汰掉。

新数据：最初一次拜访工夫间隔当初较近，last_read_time 值较大

老数据：最初一次拜访工夫间隔当初较远，last_read_time 值较小

为了不辜负之前采样的“致力”，使算法能尽量淘汰掉更老的数据，咱们能够额定保护一个大小为 M 的大顶堆，堆中数据依照 last_read_time 的值排序，这样，堆中最新的数据将会处于堆顶。每次采样后，咱们将采样失去的数据顺次与堆顶数据比拟，如果 last_read_time 比堆顶元素小（即采样的数据更老），咱们就把堆顶元素删除，并将采样的数据插入堆中；如果比堆顶元素大（即采样的数据比拟新），则不做解决。全副采样数据比拟实现后，咱们再淘汰掉堆中最老的一条数据，这样，咱们就能联合”历史“采样的数据，淘汰掉更老的数据。

在下面两种实现中，咱们对哈希表都是一笔带过，但有些场景下，缓存很贵，操作缓存的老本也很高，须要咱们对缓存进行更底层的设计，更加正当的利用缓存空间。比方 cpu 上的缓存，缓存很小，可能就只有几百几千个缓存行，但因离 CPU 很近，造价很高，对缓存性能的要求也更高。

咱们先将这类缓存的数据结构形象成一个特定长度的数组，对这个数组进行缓存设计。

为了能满足疾速查问到某个缓存数据，咱们仍旧能够参考哈希表的思路，设计一个哈希函数，依据 key 疾速定位到数据在数组中的地位。当然，问题也是很显著的，一个数据通过哈希计算后，数组地位是确定的，所以缓存置换时替换的缓存数据也是确定的，无奈抉择淘汰掉更老的数据。

这个问题在于数据在数组中地位是惟一确定的，如果容许一个数据映射到数组的多个地位，就能够在这多个地位的缓存数据中淘汰掉其中比拟老的数据了。

这里咱们给出一种计划，在通过哈希计算出一个地位 a 后，能够在 a 开始的往后 N 个地位中查找数据。这 N 个地位的数据组成一个抉择组。例如缓存总容量 100，抉择组大小设置为 8。要查找 key=”lru” 在缓存中的值，通过哈希后得出在地位 11，那么，能够在地位【11、12、13、14、15、16、17、18】中顺次查找，直至找到 key 的缓存数据。

当有新数据须要缓存时，先通过哈希计算出抉择组的 N 个数据，而后在这 N 个数据中抉择老数据替换成新加的数据。那么，这个时候该如何抉择呢？

比拟容易能够想到的是，能够参考 redis 的实现，每个缓存数据记录下最初拜访的工夫戳，置换时，在抉择组中淘汰掉最老的数据即可。然而，这对于”寸土寸金“的 CPU 缓存来说，额定存储一个工夫戳，对缓存空间的耗费还是有点太“侈靡”了。

这里介绍一种更”节约“的模仿 LRU 置换计划，每个缓存条目拿出 1 个 LRU 位 (bit) 来记录缓存的拜访状况。0 代表要被淘汰，当缓存被拜访时，将这个 bit 设置为 1，置换时查找 0 的缓存数据替换进来。当抉择组的缓存条目全为 1 时，将抉择组中的缓存条 LRU 位全副重置为 0。

最初再介绍一种更奇妙的模仿 LRU 办法。用几个 bit 来为每个抉择组结构一个满二叉树，如下图。

树中的每个节点都是一个 bit，节点为 0 时示意指向左子节点，1 时示意指向右子节点，初始状态都为 0，即都指向右边。

读取缓存时，将扭转指向读取的缓存的节点的箭头指向，比方，读取 A 时，会将指向 A 的箭头会被翻转，后果如下图。

当然，如果读取 d 时，整个树的各节点指向不须要扭转。

产生缓存置换时，会从根节点开始寻找，顺着箭头方向找到须要淘汰替换的缓存条目。在寻找过程中，会将门路上的节点箭头全副反转，0 变成 1，1 变成 0。比方，要写入新缓存“K”，后果如下。

总结来说，也就是树的叶子节点指向的缓存条目，都是较早被拜访的，应该先被淘汰掉。

思考下，结构 bit-tree 模仿 LRU 对抉择组中缓存数量有要求吗？

其实是应该满足 2^n 的，因为搜寻树是一颗满二叉树，叶子节点的数量是 2^n, 每个叶子节点负责两个缓存数据，所以，缓存数?> 据的数量应该是也 2^n，否则可能在置换时，找不到要淘汰的缓存数据。

喜爱本文的敌人，欢送关注公众号「会玩 code」，专一大白话分享实用技术

正文完

程序员

发表至：程序员

2021-04-15

0

关于程序员:ThreadLocal原理以及使用

关于程序员:2022年医药新零售行业发展分析及前景预期

关于程序员:附下载密码获取工具LaZagne安装及使用

关于程序员:腾讯云EMR基于YARN针对云原生容器化的优化与实践

关于git:Git-添加公钥

关于程序员:我用几个-bit-实现了-LRU你不好奇吗

惯例的 LRU 算法实现

redis 近似 LRU 实现

bit 级别模仿 LRU

1bit 模仿 LRU

bit 搜寻树模仿 LRU

写在最初

站内搜索