关于缓存:实战问题-缓存穿透之布隆过滤器1

后面咱们提到，在避免缓存穿透的状况（缓存穿透是指，缓存和数据库都没有的数据，被大量申请，比方订单号不可能为-1，然而用户申请了大量订单号为-1的数据，因为数据不存在，缓存就也不会存在该数据，所有的申请都会间接穿透到数据库。）,咱们能够思考应用布隆过滤器，来过滤掉相对不存于汇合中的元素。

布隆过滤器是什么呢？

布隆过滤器（Bloom Filter）是由布隆（Burton Howard Bloom）在1970年提出的，它实际上是由一个很长的二进制向量和一系列随机hash映射函数组成（说白了，就是用二进制数组存储数据的特色）。能够应用它来判断一个元素是否存在于汇合中，它的长处在于查问效率高，空间小，毛病是存在肯定的误差，以及咱们想要剔除元素的时候，可能会相互影响。

也就是当一个元素被退出汇合的时候，通过多个hash函数，将元素映射到位数组中的k个点，置为1。

为什么须要布隆过滤器？

个别状况下，咱们想要判断是否存在某个元素，一开始思考必定是应用数组，然而应用数组的状况，查找的时候效率比较慢，要判断一个元素不存在于数组中，须要每次遍历完所有的元素。删除完一个元素后，还得把前面的其余元素往前面挪动。

其实能够思考应用hash表，如果有hash表来存储，将是以下的构造：

然而这种构造，尽管满足了大部分的需要，可能存在两点缺点：

只有一个hash函数，其实两个元素hash到一块，也就是产生hash抵触的可能性，还是比拟高的。尽管能够用拉链法（前面跟着一个链表）的形式解决，然而操作工夫复杂度可能有所升高。
存储的时候，咱们须要把元素援用给存储进去，要是上亿的数据，咱们要将上亿的数据存储到一个hash表外面，不太倡议这样操作。

对于下面存在的缺点，其实咱们能够思考，用多个hash函数来缩小抵触（留神：抵触时不能够防止的，只能缩小），用位来存储每一个hash值。这样既能够缩小hash抵触，还能够缩小存储空间。

假如有三个hash函数，那么不同的元素，都会应用三个hash函数，hash到三个地位上。

假如前面又来了一个张三，那么在hash的时候，同样会hash到以下地位，所有位都是1，咱们就能够说张三曾经存在在外面了。

那么有没有可能呈现误判的状况呢？这是有可能的，比方当初只有张三，李四，王五，蔡八，hash映射值如下：

前面来了陈六，然而不凑巧的是，它hash的三个函数hash进去的位，刚刚好就是被别的元素hash之后，改成1了，判断它曾经存在了，然而实际上，陈六之前是不存在的。

下面的状况，就是误判，布隆过滤器都会不可避免的呈现误判。然而它有一个益处是，布隆过滤器，判断存在的元素，可能不存在，然而判断不存在的元素，肯定不存在。，因为判断不存在阐明至多有一位hash进去是对不上的。

也是因为会呈现多个元素可能hash到一起，但有一个数据被踢出了汇合，咱们想把它映射的位，置为0，相当于删除该数据。这个时候，就会影响到其余的元素，可能会把别的元素映射的位，置为了0。这也就是为什么布隆过滤器不能删除的起因。

具体步骤

增加元素：

1. 应用多个hash函数对元素item进行hash运算，失去多个hash值。
1. 每一个hash值对bit位数组取模，失去位数组中的地位索引index。
1. 如果index的地位不为1，那么就将该地位为1。

判断元素是否存在：

1. 应用多个hash函数对元素item进行hash运算，失去多个hash值。
1. 每一个hash值对bit位数组取模，失去位数组中的地位索引index。
1. 如果index所处的地位都为1，阐明元素可能曾经存在了。

误判率推导

庆幸的是，布隆过滤器的误判率是能够预测的，由下面的剖析，也能够得悉，其实是与位数组的大小，以及hash函数的个数等，这些都是非亲非故的。

假如位数组的大小是m，咱们一共有k个hash函数，那么每一个hash函数，进行hash的时候，只能hash到m位中的一个地位，所以没有被hash到的概率是：
$$1-\frac{1}{m}$$

k个hash函数都hash之后，该位还是没有被hash到1的概率是：
$$(1-\frac{1}{m})^k$$

如果咱们插入了n个元素，也就是hash了n*k次，该位还是没有被hash成1的概率是：
$$(1-\frac{1}{m})^{kn}$$

那该位为1的概率就是：
$$1-(1-\frac{1}{m})^{kn}$$

如果须要检测某一个元素是不是在汇合中，也就是该元素对应的k个hash元素hash进去的值，都须要设置为1。也就是该元素不存在，然而该元素对应的所有位都被hash成为1的概率是：
$${(1-(1-\frac{1}{m})^{kn})}^{k}\approx {(1-e^{-kn/m})}^k $$

能够大抵看出，随着位数组大小m和hash函数个数的减少，其实概率会降落，随着插入的元素n的减少，概率会有所回升。

最初也能够通过本人期待的误判率P和期待增加的个数n，来大抵计算出布隆过滤器的位数组的长度：
$$m=-(\frac{nInP}{(In2)^2})$$

下面就是误判率的大抵计算形式，同时也提醒咱们，能够依据本人业务的数据量以及误判率，来调整咱们的数组的大小。

布隆过滤器的作用

除了咱们后面说的过滤爬虫歹意申请，还能够对一些URL进行去重，过滤海量数据外面的反复数据，过滤数据库外面不存在的id等等。

然而，即便有布隆过滤器，咱们也不可能完全避免，或者彻底解决缓存穿透这个问题。只是相当于做了优化，将准确率进步。

很多的key-value数据库也会应用布隆过滤器来放慢查问效率，因为全副挨个判断一遍，这个效率太低了。

【刷题笔记】
Github仓库地址：https://github.com/Damaer/cod…
笔记地址：https://damaer.github.io/code…

【作者简介】：
秦怀，公众号【秦怀杂货店】作者，技术之路不在一时，山高水长，纵使迟缓，驰而不息。集体写作方向：Java源码解析，JDBC，Mybatis，Spring，redis，分布式，剑指Offer，LeetCode等，认真写好每一篇文章，不喜爱题目党，不喜爱花里胡哨，大多写系列文章，不能保障我写的都完全正确，然而我保障所写的均通过实际或者查找材料。脱漏或者谬误之处，还望斧正。

2020年我写了什么？

开源刷题笔记

素日工夫贵重，只能应用早晨以及周末工夫学习写作，关注我，咱们一起成长吧~

关于缓存:实战问题-缓存穿透之布隆过滤器1

布隆过滤器是什么呢？

为什么须要布隆过滤器？

具体步骤

误判率推导

布隆过滤器的作用

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于缓存:实战问题-缓存穿透之布隆过滤器1

布隆过滤器是什么呢？

为什么须要布隆过滤器？

具体步骤

误判率推导

布隆过滤器的作用

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复