形容

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地示意一个汇合，并能判断一个元素是否属于这个汇合。Bloom Filter的这种高效是有肯定代价的：在判断一个元素是否属于某个汇合时，有可能会把不属于这个汇合的元素误认为属于这个汇合（false positive）。因而，Bloom Filter不适宜那些“零谬误”的利用场合。而在能容忍低错误率的利用场合下，Bloom Filter通过极少的谬误换取了存储空间的极大节俭。
最近正好用到bloomfilter，所以查问了些材料，整顿如下，本文将从原理与数学公式等角度进行讲述，波及到根本高等函数、微积分与概率论的常识，相干的常识请各位自行获取，本文默认各个读者有肯定的数学根底。

算法形容

bloom filter是一个有m bits的bit array，每一个bit位都初始化为0。并且定义有k个不同的hash function，每个都以uniform random distribution将元素hash到m个不同地位中的一个。n为要增加到bloomfilter外面的元素。p为错误率。所以相干的参数为：m n k p（后续具体阐明）
很多人说，后端工程师是“添删改查”工程师，那么我也不能免俗，上面从“添删改查”角度来进行论述：

增加过程：首先，用k个hash function将它hash失去bloom filter中k个bit位，之后将这k个bit地位1。
查问过程：即判断它是否在汇合中，用k个hash function将它hash失去k个bit位。若这k bits全为1，则此元素在汇合中；若其中任一位不为1，则此元素比不在汇合中
删除过程：不容许remove元素，因为那样的话会把相应的k个bits地位为0，而其中很有可能有其余元素对应的位。因而remove会引入false negative，这是相对不被容许的。
批改过程：删除都不容许了，批改更不容许，读者自行脑补吧。

误判率计算和证实

上面低潮来了，用数学公式来进行推倒证实：假如布隆过滤器中的hash function使每个元素都等概率地hash到m个slot中的任何一个，与其它元素被hash到哪个slot无关（独立性）。若m为bit数，则对某一特定bit位在一个元素由某特定hash function插入时没有被置位为1的概率为：

从上式中能够看出，当m增大或n减小时，都会使得误判率减小，这也合乎直觉。

当初计算对于给定的m和n，k为何值时能够使得误判率最低。设误判率为k的函数为：

这阐明了若想放弃某固定误判率不变，布隆过滤器的bit数m与被add的元素数n应该是线性同步减少的。

三如何设计bloomfilter

首先，须要确定须要add的元素的个数与心愿的误差率，这个是整个零碎须要输出的参数，其余的参数有零碎主动计算，并且建设bloomfilter。

此概率为某bit位在插入n个元素后未被置位的概率。因而，想放弃错误率低，布隆过滤器的空间使用率需为50%。

bloomfilter的各个参数的错误率

总结

公式推完了，大家能够看看，外面的数学公式根本用到了指数函数对数函数微积分求导法令概率论的常识，大家能够补充看下课本。

参考文章

http://www.cs.jhu.edu/~fabian...
http://pages.cs.wisc.edu/~cao...

自我介绍

集体介绍：杜宝坤，京东联邦学习从0到1构建者，率领团队构建了京东的联邦学习解决方案，实现了电商营销畛域反对超大规模的工业化联邦学习解决方案，反对超大规模样本PSI隐衷对齐、平安的树模型与神经网络模型等泛滥模型反对，并且实现了广告侧等业务畛域的落地，创始了新的业务增长点，产生了显著的业务经济效益。

集体喜爱钻研技术。基于从全链路思考与决策技术布局的考量，钻研的畛域比拟多，从架构、数据到算法与算法框架均有波及。欢送喜爱技术的同学和我交换，邮箱：baokun06@163.com

关于机器学习:bloomfilter详解布隆过滤器

目录

形容

算法形容

误判率计算和证实

总结

参考文章

自我介绍