关于后端:基于-LRUK-模型如何实现高效的元数据缓存

75次阅读

共计 1753 个字符，预计需要花费 5 分钟才能阅读完成。

对于存储来说，性能是绕不开的话题。当提到性能，牢靠、高效的缓存策略是极其重要的。在计算机领域，缓存技术个别是指，用一个更快的存储设备存储一些常常用到的数据，供用户快速访问。用户不须要每次都与慢设施去做交互，因而能够进步拜访效率。但凡位于速度相差较大的两种硬件之间，用于协调两者数据传输速度差别的构造，均可称之为缓存。缓存是晋升拜访性能的一个重要技术。缓存通过缩小系统对数据库的访问量来进步零碎性能。

目前缓存分为两种模式，一种是文件缓存，一种是内存缓存，文件缓存即缓存数据寄存在服务器的硬盘空间中，内存缓存即缓存数据寄存在服务器的内存空间中。在分布式文件存储中，客户端就能提供文件缓存，那为什么存储层还须要缓存呢？以下是存储层应用缓存的劣势因素：

客户端资源无限，无奈缓存海量的文件，而后端存储则能够线性扩大，能够缓存更多的数据。
后端存储能够依据整个存储状况提供更全面的缓存，比如说多个客户端同时拜访热点。
分布式文件存储中，客户端分布各个终端节点，存储层的缓存能够保障一致性，更加安全可靠。
存储层能够依据咱们数据在物理机上的散布特点，灵便调配缓存大小和策略。

存储层的缓存能力是晋升分布式存储性能十分重要的局部，明天咱们次要探讨利用 LRU-K 模型如何实现高效的元数据缓存？

内存中的读写速度很快，基于此很多缓存技术都喜爱将数据存在内存中，然而内存空间是无限的，当达到一定量后须要将一些不罕用的缓存数据删除或者落盘。缓存淘汰算法适应而生，其中 LRU、LRU-K 就是比拟常见的，目标都是为了高效地保护缓存数据。

LRU 的根本思维是如果数据最近被拜访过，那么未来被拜访的几率更高。咱们实现 LRU 时，要保护一个队列，第一次拜访的数据间接入队，反复拜访的缓存，将该数据移至队尾，须要删除时删除队头的数据，这样就能放弃队列越往后，数据再次被拜访的可能性就越大。LRU 缓存变换之快这是它的长处也是它的毛病，因为只须要一次拜访就能成为最陈腐的数据，当呈现很多偶发数据时，这些偶发的数据也会被当作最陈腐的，从而成为缓存。但其实这些偶发数据当前并不会被常常拜访到。在文件系统里，这个景象会更加显著，绝大部分文件 / 目录只在业务过程中单次去查问，而热点往往集中在大量文件。

LRU-K 的次要目标是为了解决 LRU 算法 ” 缓存净化 ” 的问题，其核心思想是将 ” 最近应用过 1 次 ” 的判断规范扩大为 ” 最近应用过 K 次 ”。LRU-K 提供两个 LRU 队列，一个是拜访计数队列，一个是规范的 LRU 队列，两个队列都依照 LRU 规定淘汰数据。当拜访一个数据时，数据先进入拜访计数队列，当数据拜访次数超过 K 次后，才会进入规范 LRU 队列。规范的 LRU 算法相当于 LRU-1；LRU-K 具备 LRU 的长处，同时可能防止 LRU 的毛病，理论利用中 LRU-2 是综合各种因素后最优的抉择，LRU-3 或者更大的 K 值命中率会高，但适应性差，须要大量的数据拜访能力将历史拜访记录革除掉。

目录的构造是树形的，这就决定了咱们不能平等地去对待每一个目录，越靠近树顶的目录，它的拜访概率越高，拜访频次越高，这些是最值得保留的数据。所以 LRU-K 更适宜海量目录场景下的缓存淘汰。

采纳 LRU-K 模型实现目录的缓存：

数据第一次被拜访，退出到拜访历史列表；
如果数据在拜访历史列表里后没有达到 K 次访问，则依照肯定规定（LRU）淘汰；
当拜访历史队列中的数据拜访次数达到 K 次后，将数据索引从历史队列删除，将数据移到缓存队列中，并缓存此数据，缓存队列从新依照工夫排序；
缓存数据队列中被再次拜访后，从新排序；
须要淘汰数据时，淘汰缓存队列中排在开端的数据，即：淘汰“倒数第 K 次访问离当初最久”的数据。

存储层应用缓存减速元数据性能是一种无效的办法，它能够进步分布式文件存储的拜访效率和一致性，同时缩小对数据库的压力。LRU-K 模型是一种适宜海量目录场景下的缓存淘汰算法，它能够防止缓存净化的问题，保障缓存数据的热度和新鲜度。焱融分布式文件存储 YRCloudFile 提供元数据服务的组件是 MDS，在海量目录百亿级文件规模场景下实现了高效的存储层的元数据缓存，可能提供卓越的性能和可靠性，满足用户对文件存储的各种需要，实测性能成倍晋升，为用户提供了高性能、高牢靠、高扩大的存储服务。

正文完