关于后端:解释一下布隆过滤器原理

锁屏面试题百日百刷，每个工作日保持更新面试题。请看到最初就能获取你想要的, 接下来的是今日的面试题：

1.解释一下布隆过滤器原理**

在日常生活中，包含在设计计算机软件时，咱们常常要判断一个元素是否在一个汇合中。比方在字处理软件中，须要查看一个英语单词是否拼写正确（也就是要判断它是否在已知的字典中）；在 FBI，一个嫌疑人的名字是否曾经在嫌疑名单上；在网络爬虫里，一个网址是否被拜访过等等。最间接的办法就是将汇合中全副的元素存在计算机中，遇到一个新元素时，将它和汇合中的元素间接比拟即可。一般来讲，计算机中的汇合是用哈希表（hash table）来存储的。它的益处是疾速精确，毛病是费存储空间。当汇合比拟小时，这个问题不显著，然而当汇合微小时，哈希表存储效率低的问题就显现出来了。比如说，一个象 Yahoo,Hotmail 和 Gmai 那样的公众电子邮件（email）提供商，总是须要过滤来自发送垃圾邮件的人（spamer）的垃圾邮件。一个方法就是记录下那些发垃圾邮件的 email地址。因为那些发送者不停地在注册新的地址，全世界少说也有几十亿个发垃圾邮件的地址，将他们都存起来则须要大量的网络服务器。如果用哈希表，每存储一亿个 email 地址，就须要 1.6GB 的内存（用哈希表实现的具体办法是将每一个 email 地址对应成一个八字节的信息指纹googlechinablog.com/2006/08/blog-post.html，而后将这些信息指纹存入哈希表，因为哈希表的存储效率个别只有 50%，因而一个 email 地址须要占用十六个字节。

一亿个地址大概要 1.6GB，即十六亿字节的内存）。因而存贮几十亿个邮件地址可能须要上百 GB 的内存。除非是超级计算机，个别服务器是无奈存储的。

布隆过滤器只须要哈希表 1/8 到 1/4 的大小就能解决同样的问题。

Bloom Filter是一种空间效率很高的随机数据结构，它利用位数组很简洁地示意一个汇合，并能判断一个元素是否属于这个汇合。Bloom Filter的这种高效是有肯定代价的：在判断一个元素是否属于某个汇合时，有可能会把不属于这个汇合的元素误认为属于这个汇合（false positive）。因而，Bloom Filter不适宜那些“零谬误”的利用场合。

而在能容忍低错误率的利用场合下，Bloom Filter通过极少的谬误换取了存储空间的极大节俭。

上面咱们具体来看Bloom Filter是如何用位数组示意汇合的。初始状态时，Bloom Filter是一个蕴含m位的位数组，每一位都置为0。

为了表白S={x1, x2,…,xn}这样一个n个元素的汇合，Bloom Filter应用k个互相独立的哈希函数（Hash Function），它们别离将汇合中的每个元素映射到{1,…,m}的范畴中。对任意一个元素x，第i个哈希函数映射的地位hi(x)就会被置为1（1≤i≤k）。留神，如果一个地位屡次被置为1，那么只有第一次会起作用，前面几次将没有任何成果。在下图中， k=3，且有两个哈希函数选中同一个地位（从右边数第五位）。

在判断y是否属于这个汇合时，咱们对y利用k次哈希函数，如果所有hi(y)的地位都是1（1≤i≤k），那么咱们就认为y是汇合中的元素，否则就认为y不是汇合中的元素。下图中y1就不是汇合中的元素。y2或者属于这个汇合，或者刚好是一个false positive。

· 为了add一个元素，用k个hash function将它hash失去bloom filter中k个bit位，将这k个bit地位1。

· 为了query一个元素，即判断它是否在汇合中，用k个hash function将它hash失去k个bit位。若这k bits全为1，则此元素在汇合中；若其中任一位不为1，则此元素比不在汇合中（因为如果在，则在add时曾经把对应的k个bits地位为1）。

· 不容许remove元素，因为那样的话会把相应的k个bits地位为0，而其中很有可能有其余元素对应的位。因而remove会引入false negative，这是相对不被容许的。

布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。然而，它有一条不足之处，也就是它有极小的可能将一个不在黑名单中的电子邮件地址断定为在黑名单中，因为有可能某个好的邮件地址刚巧对应个八个都被设置成一的二进制位。好在这种可能性很小，咱们把它称为误识概率。

布隆过滤器的益处在于疾速，省空间，然而有肯定的误识别率，常见的补救方法是在建设一个小的白名单，存储那些可能别误判的邮件地址。

2.如何实现HBase的二级索引?**

计划一: 通常状况下,较原生形式,咱们能够采纳ES或者Solr来实现hbase的二级索引的操作, 当用户要写入数据时候, 基于hbase的observer协处理器拦挡下来, 应用es或者Solr来构建hbase的索引数据, 这样当查问hbase中数据时候, 能够先去ES中查问到对应的数据, 而后依据后果, 在从hbase中获取最终的残缺的后果

计划二: 基于Phoenix实现, Phoenix是一款基于hbase的SQL客户端, 能够应用SQL的形式来操作hbase, 同时为了晋升整体的查问性能, Phoenix中提供了各种索引(全局索引, 本地索引, 笼罩索引以及函数索引), 这些索引都是基于Hbase的协处理器(次要是ObServer协处理器)而实现的, 二基于索引的查问计划, 也是Phoenix实现hbase二级索引的形式

3.Hbase的storeFile(compact)合并机制是什么?**

compact合并机制:

指的memStore中一直进行flush刷新操作, 就会产生多个storeFile的文件, 当storeFile的文

件达到肯定阈值后, 就会触发compact的合并机制, 将多个storeFile合并为一个大的HFile文件

阈值: 达到3个及以上

整个合并过程分为两大阶段:

minor :

作用: 将多个小的storeFile合并为一个较大的Hfile操作

阈值: 达到3个及以上

留神: 此合并过程, 仅仅将多个合并为一个, 对数据进行排序操作, 如果此时数据有过期, 或者有标记为删除数据, 此时不做任何的解决 (相似于内存合并中根底型)

所以说, 此合并操作, 效率比拟高

major:

作用: 将较大的HFile 和之前的大的Hfile进行合并造成一个更大的Hfile文件 (全局合并)

阈值: 默认 7天

留神: 此合并过程, 会将那些过期的数据, 或者曾经标记删除的数据, 在这次合并中, 全副

都革除掉，因为这是一种全局合并操作, 对性能影响比拟大, 在理论生产中, 倡议敞开掉主动合并, 采纳手动触发的计划

4.Hbase的flush刷新机制?**

flush刷新机制(溢写合并机制):

流程: 客户端一直将数据写入到memStore内存中, 当内存中数据达到肯定阈值后, 须要

将数据溢写刷新的HDFS中造成一个storeFile文件

阈值: 128M 或者 1小时满足了那个都会触发flush机制

外部具体流程: hbase 2.0架构以上流程

1) 客户端一直向memStore中写入数据, 当memStore只数据达到阈值后, 就会启动flush操作

2) 首先hbase会先敞开掉以后这个曾经达到阈值的内存空间, 而后开启一个新的memStore的空间,用于持续写入工作

3) 将这个达到阈值的内存空间数据放入到内存队列中, 此队列的个性是只读, 在hbase 2.0架构中, 能够设置此队列的数据尽可能晚的刷新到HDFS中, 当这个队列中数据达到某个阈值后(内存不足), 这个时候触发flush刷新操作 (队列中可能存储了多个memStore的数据)

4) flush线程会将队列中所有的数据全副读取进去, 而后对数据进行排序合并操作, 将合并后数据存储到HDFS中, 造成一个storeFile的文件

留神: 在 hbase2.0以下的架构中, 不存在推延刷新性能, 同样也不存在合并数据的

操作当memStore数据达到阈值后, 放入到队列中, 专门有一个flush刷新监控队列, 一旦有数据间接刷新到HDFS上

留神阐明:

hbase 2.0 只是提供了基于内存的合并性能, 然而默认状况下不开启的, 所以在默认状况

下整个flush机制根本和2.0以下的版本是统一的, 然而一旦开启了, 就是刚刚形容流程

合并计划: 三种根底型(basic): 间接将多个memStore数据合并在一起间接刷新到HDFS上,如果数据存在过期的数据, 或者是曾经标记为删除的数据, 根底型不做任何解决

饥渴型(eager): 在将多个memStore合并的过程中, 踊跃判断数据是否存在过期, 或者是否曾经标记删除, 如果有, 间接过滤掉这些标记删除和过期的数据即可

适应性(adaptive): 检查数据是否有过期数据, 如果过期数据量达到肯定阈值后, 就会主动使

用饥渴型, 否则就应用根底型

5.如何解决hbase中数据热点问题?**

所谓数据热点, 指的是大量的数据写到hbase的某一个或者某几个region中, 导致其余的region没有数据, 其余region对应regionServer的节点接受了大量的并发申请, 此时就呈现了热点问题

解决方案: 通过预分区和设计良好的rowkey来解决

1)加盐解决(加随机数) : 能够在rowkey后面动静增加一些随机数, 从而保证数据能够平均落在不同region中

n 根本保证数据落在不同region

n 将相关性比拟强的数据扩散在不同的额region中, 导致查问的效率有肯定升高

2)hash解决: 依据rowkey计算其hash值, 在rowkey后面hash计算值即可 (MD5 HASH)

n 让相关性比拟强的数据能够被搁置到同一个region中

n 如果相干数据比拟多, 仍然会导致热点问题

3)反转策略: 比如说手机号反转或者工夫戳的反转

n 益处: 根本保证数据落在不同region

n 弊病: 将相关性比拟强的数据扩散在不同的region中, 导致查问的效率有肯定升高

全部内容在git上,理解更多请点我头像或到我的主页去取得，谢谢**