关于操作系统:ASPLOS2020Elastic-Cuckoo-Page-Tables

34次阅读

共计 3389 个字符，预计需要花费 9 分钟才能阅读完成。

论文浏览笔记弹性布谷哈希页表

Elastic Cuckoo Page Tables: Rethinking Virtual Memory Translation for Parallelism

https://dl.acm.org/doi/pdf/10…

将传统多层基数页表的程序指针追踪，转化为齐全并行查找，第一次实现了内存级并行的地址翻译。

地址转换是存取的性能瓶颈
传统多层基数页表的程序指针追踪，没有充分利用内存级并行，理当被取代。
哈希页表局限：空间局部性的缺失；每个页表项都须要哈希标签，耗费更多空间；哈希抵触须要屡次存取操作。（前两项可通过精心设计页表 [73] 来解决，页表项汇集和压缩）
凋谢地址、链地址需昂扬存取开销。为防止哈希抵触，哈希页表需动静调整大小，开销大。
繁多全局哈希页表的毛病：在不减少额定地址翻译层下，不反对过程间页表共享、多种页表大小；完结过程时，需线性扫描整个页表，删除相干项。
可调整大小的哈希页表：超过占用阈值，需调配新的大哈希表，需从新哈希、迁徙到新哈希表，十分耗时。
渐进式可调整大小的哈希页表：保护新、旧哈希表约需两倍内存开销；需查找新、旧页表，两倍 cache 存取时间。
布谷哈希：多个哈希函数，踢出法。

地址翻译时应用齐全并行查找，升高指针追踪开销。
应用弹性布谷哈希，这种哈希无效反对页表大小动静调整。
这种页表可无效解决哈希抵触，提供过程公有页表，反对多种页表大小，反对过程间共享页表，以及按需动静调整页表大小。
试验：8 核处理器全系统模拟，包含图剖析、生物信息学、HPC、零碎负载试验。与传统基数页表相比，在地址转换上有 41% 晋升，在应用程序执行上有 3 -18% 的减速。

$d$- 路布谷哈希。

从旧 $d$- 表路中随机选取一路 $T_i$，用哈希函数 $H_i$，若哈希值落在 live 区，直接插入；否则，应用新的 $d$- 路表的同一路 $T_i’$ 的哈希函数 $H_i’$，被踢出的元素插入 $T_i’$。

查找元素只需 $d$ 次探查：应用旧的 $d$- 表的所有 $H_D$ 函数，对每一路，若哈希值落在 live 区，则探查到，否则应用 $T_i’$。

从两方面改良布谷哈希的渐进式扩大：$d$ 次探查（存取），而非 $2d$ 次；不用从旧表的迁徙区取条目到 cache 中。

能够并行化。

例子：

case1：探查 $T_1[H_1(x)],T_2[H_2(x)]$

case2：探查 $T_1′[H_1′(x)],T_2′[H_2′(x)]$

case3：探查 $T_1′[H_1′(x)],T_2[H_2(x)]$

case4：探查 $T_1[H_1(x)],T_2′[H_2′(x)]$

查找到后，革除条目。耗时与 Look-up 雷同。

$d$ 组中随机选取一组 $i$
若 $H_i(x) \ge P_i $，元素插入 $T_i[H_i(x)]$ 地位；否则，插入 $T_i'[H_i'(x)]$ 地位
若原来的地位有元素 $y$，则 $y$ 被踢出。从剩下的路中随机选一组，对 $y$ 进行同样的插入操作。

⊥示意空值

参数：再哈希阈值 $r_t$，乘法因子 $k$。一个哈希表的占有率达到 $r_t$ 时，调配一个新的哈希表，其大小为原来的 $k$ 倍。
选 $ r_t $，使得有较小的插入抵触和渺小的插入失败。$d$ = 3 时，较好的 $r_t$ 为 0.6 或更小。
选 $k$，使得不占用过多间断内存，且不造成过多页表大小调整。
$ k > (r_t + 1) / r_t $（附录 A）
若在调整大小之外产生插入失败，则触发调整大小；若在调整大小期间产生插入失败，则将多个元素散列到其余中央，再从新插入。试验证实，选取适合的 $r_t$，可完全避免插入失败。
downsize 参数：downsize 阈值 $d_t$, downsize 因子 $g$。

多级独立页表，可反对任意大小的页面。（基数页表只能反对固定几种大小的）

两层并行：（与基数页表不同）

并行查找独立的页表（有 cache 减速）
并行查找不同的组

页表项：8 个 PTE 项和 1 个 tag 放在一个 cache line 里。

Cuckoo Walk

有 PUD-CWT, PMD-CWT, PTE-CWT：渐进保留更细粒度的信息，按程序拜访。
为缩小提早，将它们缓存到 MMU 的Cuckoo walk caches (CWCs)。只缓存前两个。缓存 PTE-CWT 提供的局部性太少（相似于基数页表不缓存 PTE 项）
OS 线程应用锁更新 PUD-CWT 和 PMD-CWT。

CMT 项：蕴含一个 VPN 标签、多个间断的 Section 头，一个项占一个缓存行。Section 是虚拟内存地址范畴。每个 section 头保留由页表中一个条目映射的虚拟内存段的信息（指定该 section 中页面的大小、页表哪一组保留着这个 section 对应的翻译）。

如图。2MB 位：该 section 是否映射到一或多个 2MB 页面；4KB 位：该 section 是否映射到一或多个 4KB 页面。仅当 2MB 位为 1 时，最初的 way bits 才有意义（哪一组）。

含意：

调配 2MB 和 4KB 页面时，2MB bit 和 4KB bit 第一次更新。当 4KB 页面调配或 rehash 时，way bits 不用更新。

PUD-CWT 相似于 PMD-CWT。每个 section 头有 5bit：1GB 位、2MB 位、4KB 位、2 way bits（记录 1GB 页面映射到哪一路）。

CWCs 缓存页大小、路信息（传统的基数页表游走缓存存页表项），CWC 项十分小、命中率高。
CWC 和 CWT 可独立拜访

（这里假如没有 1GB 的页）

TLB 缺失后，页表游走硬件查看 PUD-CWC。失去翻译后果，写回 TLB。

PUD-CWC 命中，3 种状况：仅 4KB，⑤失去翻译后果或页缺失；后两种，访 PMD-CWC。
PMD-CWC 命中，3 种状况。
PMD-CWC 缺失，应用 PUD-CWC 的信息进一步探查，2 种状况。
PUD-CWC 缺失，拜访 PWD-CWC。
若思考 1GB 的页，PUD-CWC 缺失和 PMD-CWC 命中，须要取出 PUD-CWT 项。

页缺失时，仍可查找。相似于 Linux 下基数页表的并发解决。OS 更新弹性布谷页表或 CWT 时，应用锁。读线程临时读到旧的数据。
应用同步和原子指令执行：插入、挪动（way 间、resize 时不同页表间）、更新重哈希指针、更新 CWT。
若应用 CWC 的内容去找地址映射而失败了，再次执行游走：只拜访指标页表的残余路（若呈现 resize，则拜访两个页表的残余 way）。这就会发现条目挪动到另一路。这样 CWC 的旧条目就失去更新。

baseline 4 KB, Cuckoo 4KB; baseline THP, Cuckoo THP. (THP：通明大页面)

图利用：2 个社交图剖析算法（BC, DC）；2 个图遍历算法；单源点最短门路（SSSP)；连通分支（CC）；三角计数（TC）；PageRank
生物信息：BioBench suite 的 MUMmer。
HPC：GUPS，度量整数随机内存更新。
零碎：SysBench suite 的内存基准测试。

试验做得挺充沛……学学……

作者的后续工作：将弹性布谷哈希页表用于虚拟环境。

缩小 TLB 缺失的办法：clustering, coalescing, contiguity, prefetching, speculative TLBs, large part-of-memory TLBs

减少 TLB reach 的办法：OS 层改良的大页面反对，去虚拟化内存，应用程序治理虚拟内存。

这些办法着眼于制作 translation contiguity：大的间断虚拟空间映射到大的物理间断空间。这可缩小翻译，升高 TLB 缺失率，从而缩小多步页面游走。

然而，大面积的连续性毁坏了内核和其他软件享有的映射灵活性 counterproductive performance-wise。

该论文着眼于通过一个单步翻译过程来大大降低 page walk 的开销，同时保护了内核和其他软件的现有的形象。因此，不须要连续性，且保留了以后零碎的映射灵活性。

乘法因子选取的论证（附录 A）

正文完

操作系统

发表至：操作系统

2021-03-03

0

关于操作系统:龙蜥操作系统通过工信部电子标准院首批开源项目成熟度评估

关于操作系统:2022-全国大学生操作系统大赛圆满落幕-龙蜥推动人才培养与产业发展深度融合

关于操作系统:手把手快速安装Deveco-studio

关于操作系统:曳影1520已成功运行Anolis-OS详聊平头哥在RISCV软件生态的探索和实践-龙蜥技术

关于java:ThreadLocal-原理解析

关于操作系统:ASPLOS2020Elastic-Cuckoo-Page-Tables

☕️ 并行化地址翻译

???? 简介

???? 根本思维

???? 背景

???? 弹性布谷页表

???? 弹性布谷哈希

???? Rehash

???? Look-up

???? Delete

???? Insert

???? Hash Table Resize

???? 弹性布谷哈希页表

???? 结构

???? Cuckoo Walk Tables

???? Cuckoo Walk Caches

???? 地址翻译过程

???? 并发管制

???? 试验

???? 其余

未懂：

Just My Socks（注册教程内含优惠码）

关于操作系统:ASPLOS2020Elastic-Cuckoo-Page-Tables

☕️ 并行化地址翻译

???? 简介

???? 根本思维

???? 背景

???? 弹性布谷页表

???? 弹性布谷哈希

???? Rehash

???? Look-up

???? Delete

???? Insert

???? Hash Table Resize

???? 弹性布谷哈希页表

???? 结构

???? Cuckoo Walk Tables

???? Cuckoo Walk Caches

???? 地址翻译过程

???? 并发管制

???? 试验

???? 其余

未懂：

Just My Socks（注册教程 内含优惠码）

Just My Socks（注册教程内含优惠码）