关于索引:百万并发场景中倒排索引与位图计算的实践

作者：京东物流郎元辉

背景

Promise时效控单零碎作为时效域的控制系统，在用户下单前、下单后等多个节点均提供服务，是用户下单黄金链路上的重要节点；控单零碎次要逻辑是针对用户申请从规定库中找出符合条件的最优规定，并将该规定的时效管制后果返回客户端，比方因为长期疫情等起因针对仓、配、商家、客户四级地址等不同维度进行精密粒度的时效管制。

该零碎也是Promise侧并发量最大的零碎，双11顶峰集群流量TPS在百万级别，对系统的性能要求十分高，SLA要求在5ms以内，因而对海量申请在规定库(几十万)中如何疾速正确匹配规定是该零碎的技术挑战点。

奢侈的解决方案

依照奢侈的思维，在工程建设上，通过异步形式将规定库逐行缓存到Redis，Key为规定条件,Value为规定对应后果；当用户申请过去时，对申请Request(a,b,c,d..)中的参数做全组合，依据全组合出的Key尝试找出所有可能命中的规定，再从中筛选出最优的规定。如下图所示

该计划面临的问题是全组合的工夫复杂度是2n,n≈12；算法的工夫复杂度高且算法稳定性差**，最差状况一次申请须要4096次计算和读取操作。当然在工程上咱们能够应用本地缓存做一些优化，然而无奈解决最基本的性能问题。架构简图如下所示：

![]()

新的解决方案

下面计划是从行的角度对待匹配定位的，可能命中的行的每一列必然也是符合条件的，这外面存在某种隐约的内在联系。是否反过来思考这个问题，为此咱们尝试进行新的计划，当然架构简图仍然如上图所示，外围优化的是命中算法。

新的计划整体采纳列的倒排索引和倒排索引位运算的形式，使得计算复杂度由原来的2n降至n**，且算法稳定性有十分好的保障。其中列的倒排索引是对每列的值和所散布的行ID(即Posting List)建设KV关系，倒排索引位运算是对符合条件的列倒排索引进行列间的位运算，即通过联结查问以便疾速找到符合条件的规定行。

算法具体设计

1.预计算生成列的倒排索引和位图

通过对每列的值进行分组合并生成Posting List，建设列值和Posting List的KV关系。以下图为例,列A可生成的倒排索引为：301={1},201={2,3,4,5}等，须要阐明的一点，空值也是一种候选项，也须要生成KV关系，如nil={7}。

2.生成列的倒排索引对应位图

将步骤1的倒排索引转成成位图，不便后续的位图计算，转换规则为行ID对应位图的下标位（步骤1、2能够合并操作）。

3.依据用户申请查找列位图，通过位图计算生成候选规定集

将用户申请中的入参作为Key，查找符合条件的位图，对每一列进行列内和空值做||运算，最初列间位图做&运算，失去的后果是候选规定集，如下图所示：

![]()

4.从候选规定库中，依据业务优先级排序，查找最优的规定

以候选规定为基点，依照业务优先级排序，进行逐级位运算&，当遍历完或位运算为0时，找到最初不为空的即为最优规定，该过程是从候选规定库逐步放大最优范畴的过程。须要阐明某列当用户申请位图不存在时，须要应用对应的空位图进行参加，以B列为例，入参B_1102不存在，须要应用B_nil参加&。

复杂度剖析

通过下面的例子咱们能够看到，在工夫复杂度方面查找候选规定集时，进行一轮||运算，一轮&运算；在查找最优规定时进行一轮&运算，所以整体复杂度是3n≈n。

在空间复杂度方面，相比原来的行式存储，倒排索引的存储形式，每列都须要存储行ID，相当于多了 (n-1)*Posting List存储空间，当然这是粗略计算，因为实际上行ID的存储最终转换为位图存储，在空间上有十分大的压缩空间。

工程问题-压缩位图

如果倒排索引位图十分稠密，零碎会存在十分大的空间节约。咱们举一个极其case，若千万规定库中命中的行ID是第1000万位，依照传统形式BitSet进行存储，须要耗费1.2MB空间，在内存中占用存在重大节约，有没有压缩优化计划，在RoaringBitMap压缩位图计划中咱们找到，雷同场景在压缩位图形式下仅占144bytes；即便在1000万的位图空间，咱们随机存储1万个值，两者比也是在31K vs 2MB，近100倍的差距，总的来说RoaringBitMap压缩率十分大。

RoaringBitMap实质上是将大块的bitmap拆分成各个小块，其中每个小块在须要存储数据的时候才会存在，所以当进行交加或并集运算的时候，RoaringBitMap只须要去计算存在的块而不须要像bitmap那样对整个大块进行计算，既做到了压缩的存储又做到计算性能的晋升。

以下图821697800为例，对应的16进制数为30FA1D08，其中高16 位为30FA，低16位为1D08。先用二分查找从一级索引（即Container Array）中找到数值为 30FA 的容器，该容器是一个Bitmap容器,而后在该容器查找低16位的数值1D08，即十进制下7432，在Bitmap中找到相应的地位，将其置为1即可。

实用场景剖析

回顾下面的设计方案咱们能够看到，这种形式仅实用于PostingList简略如行ID的模式，如果是简单对象就不适宜用位图来存储。另外仅实用于等值查问，不适用于like、in的范畴查问，为什么有这种局限性？因为这种形式依赖于搜寻条件的空间，在计划中咱们将值的条件作为搜寻的Key，值的条件空间心愿尽可能是一个无限的、不便穷举的、小的空间。而范畴查问导致这个空间变成难以穷举、近乎有限扩张的、所以不实用。

其余优化形式

除了应用位运算的形式对倒排索引减速，思考到Posting List的有序性，还有其余的形式比方应用跳表、Hash表等形式，以ES中采纳的跳表为例，进行&运算理论就是在查找两个有序Posting List公共局部，以互相二分查找的模式，将工夫复杂度管制在log(n)的级别。

具体参见工业界如何利用跳表、哈希表、位图进行倒排索引减速？

关于索引:百万并发场景中倒排索引与位图计算的实践

作者：京东物流郎元辉

背景

奢侈的解决方案

新的解决方案

算法具体设计

1.预计算生成列的倒排索引和位图

2.生成列的倒排索引对应位图

3.依据用户申请查找列位图，通过位图计算生成候选规定集

4.从候选规定库中，依据业务优先级排序，查找最优的规定

复杂度剖析

工程问题-压缩位图

实用场景剖析

其余优化形式

评论

发表回复取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

关于索引:百万并发场景中倒排索引与位图计算的实践

作者：京东物流 郎元辉

背景

奢侈的解决方案

新的解决方案

算法具体设计

1.预计算生成列的倒排索引和位图

2.生成列的倒排索引对应位图

3.依据用户申请查找列位图，通过位图计算生成候选规定集

4.从候选规定库中，依据业务优先级排序，查找最优的规定

复杂度剖析

工程问题-压缩位图

实用场景剖析

其余优化形式

评论

发表回复 取消回复

更多文章

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

深入解析：基于Delta的线性数据结构模型，打造高效富文本编辑器

轻松管理社交媒体：使用Automa插件实现一键拉黑功能

作者：京东物流郎元辉

发表回复取消回复