转载面试阿里HashMap-这一篇就够了

前言

某日，囧辉和共事二狗决定就谁是“￥*大厦11楼11室（只有囧辉和二狗两人）HashMap 最强者”开展一番较量。画面过于血腥，成年人请在未成年人陪同下观看。

注释

二狗：天天听你这憨逼吹牛，是时候让你晓得什么叫仁慈了。

囧辉：二狗子，这屎能够乱吃，这话不能乱说哦。

二狗：先来点简略的，介绍下 HashMap 的底层数据结构吧。

囧辉：咱们当初用的都是 JDK 1.8，底层是由“数组+链表+红黑树”组成，如下图，而在 JDK 1.8 之前是由“数组+链表”组成。

二狗：为什么要改成“数组+链表+红黑树”？

囧辉：次要是为了晋升在 hash 抵触重大时（链表过长）的查找性能，应用链表的查找性能是 O(n)，而应用红黑树是 O(logn)。

二狗：那在什么时候用链表？什么时候用红黑树？

囧辉：对于插入，默认状况下是应用链表节点。当同一个索引地位的节点在新增后达到9个（阈值8）：如果此时数组长度大于等于 64，则会触发链表节点转红黑树节点（treeifyBin）；而如果数组长度小于64，则不会触发链表转红黑树，而是会进行扩容，因为此时的数据量还比拟小。

对于移除，当同一个索引地位的节点在移除后达到 6 个，并且该索引地位的节点为红黑树节点，会触发红黑树节点转链表节点（untreeify）。

二狗：为什么链表转红黑树的阈值是8？

囧辉：咱们平时在进行方案设计时，必须思考的两个很重要的因素是：工夫和空间。对于 HashMap 也是同样的情理，简略来说，阈值为8是在工夫和空间上衡量的后果（这 B 我装定了）。

红黑树节点大小约为链表节点的2倍，在节点太少时，红黑树的查找性能劣势并不显著，付出2倍空间的代价作者感觉不值得。

现实状况下，应用随机的哈希码，节点散布在 hash 桶中的频率遵循泊松散布，依照泊松散布的公式计算，链表中节点个数为8时的概率为 0.00000006（跟大乐透一等奖差不多，中大乐透？不存在的），这个概率足够低了，并且到8个节点时，红黑树的性能劣势也会开始展示进去，因而8是一个较正当的数字。

二狗：（呦呦呦，工夫和空间上衡量的后果，还装起B来了）那为什么转回链表节点是用的6而不是复用8？

囧辉：如果咱们设置节点多于8个转红黑树，少于8个就马上转链表，当节点个数在8彷徨时，就会频繁进行红黑树和链表的转换，造成性能的损耗。

二狗：（小菜鸡，懂得还不少）那 HashMap 有哪些重要属性？别离用于做什么的？

囧辉：除了用来存储咱们的节点 table 数组外，HashMap 还有以下几个重要属性：1）size：HashMap 曾经存储的节点个数；2）threshold：扩容阈值，当 HashMap 的个数达到该值，触发扩容。3）loadFactor：负载因子，扩容阈值 = 容量 * 负载因子。

二狗：threshold 除了用于寄存扩容阈值还有其余作用吗？

囧辉：在咱们新建 HashMap 对象时， threshold 还会被用来存初始化时的容量。HashMap 直到咱们第一次插入节点时，才会对 table 进行初始化，防止不必要的空间节约。

二狗：HashMap 的默认初始容量是多少？HashMap 的容量有什么限度吗？

囧辉：默认初始容量是16。HashMap 的容量必须是2的N次方，HashMap 会依据咱们传入的容量计算一个大于等于该容量的最小的2的N次方，例如传 9，容量为16。

二狗：（你他娘的是在绕口令吧）你这个*@%￥#&的N次方是怎么算的？

囧辉：Talk is cheap. Show you the code。

static final int tableSizeFor(int cap) {

二狗：卧槽，还彪英文，来来来，这代码你给我解释下。

囧辉：咱们先不看第一行“int n = cap – 1”，先看上面的5行计算。

|=（或等于）：这个符号比拟少见，然而“+=”应该都见过，看到这你应该明确了。例如：a |= b ，能够转成：a = a | b。

>>>（无符号右移）：例如 a >>> b 指的是将 a 向右挪动 b 指定的位数，右移后右边空出的位用零来填充，移出左边的位被抛弃。

假如 n 的值为 0010 0001，则该计算如下图：

置信你应该看进去，这5个公式会通过最高位的1，拿到2个1、4个1、8个1、16个1、32个1。当然，有多少个1，取决于咱们的入参有多大，但咱们必定的是通过这5个计算，失去的值是一个低位全是1的值，最初返回的时候 +1，则会失去1个比n 大的 2 的N次方。

这时再看结尾的 cap – 1 就很简略了，这是为了解决 cap 自身就是 2 的N次方的状况。

计算机底层是二进制的，移位和或运算是十分快的，所以这个办法的效率很高。

PS：这是 HashMap 中我集体最喜爱的设计，十分奇妙，真想给作者一个么么哒（不小心裸露了）。

二狗：（这叼毛讲的还对付啊，连我都听懂了）你说 HashMap 的容量必须是 2 的 N 次方，这是为什么？

囧辉：计算索引地位的公式为：(n – 1) & hash，当 n 为 2 的 N 次方时，n – 1 为低位全是 1 的值，此时任何值跟 n – 1 进行 & 运算会等于其自身，达到了和取模同样的成果，实现了均匀分布。实际上，这个设计就是基于公式：x mod 2^n = x & (2^n – 1)，因为 & 运算比 mod 具备更高的效率。

如下图，当 n 不为 2 的 N 次方时，hash 抵触的概率显著增大。

二狗：你说 HashMap 的默认初始容量是 16，为什么是16而不是其余的？

囧辉：（这是什么煞笔问题）我认为是16的起因次要是：16是2的N次方，并且是一个较正当的大小。如果用8或32，我感觉也是OK的。实际上，咱们在新建 HashMap 时，最好是依据本人应用状况设置初始容量，这才是最正当的计划。

二狗：方才说的负载因子默认初始值又是多少？

囧辉：负载因子默认值是0.75。

二狗：为什么是0.75而不是其余的？

囧辉：（又问这种憨逼问题）这个也是在工夫和空间上衡量的后果。如果值较高，例如1，此时会缩小空间开销，然而 hash 抵触的概率会增大，减少查找老本；而如果值较低，例如 0.5 ，此时 hash 抵触会升高，然而有一半的空间会被节约，所以折衷思考 0.75 仿佛是一个正当的值。

二狗：为什么不是 0.74 或 0.76？

囧辉：

二狗：那咱们换个问题问吧，HashMap 的插入流程是怎么样的？

囧辉：Talk is cheap. Show you the picture。

二狗：图里刚开始有个计算 key 的 hash 值，是怎么设计的？

囧辉：拿到 key 的 hashCode，并将 hashCode 的高16位和 hashCode 进行异或（XOR）运算，失去最终的 hash 值。

static final int hash(Object key) {

二狗：为什么要将 hashCode 的高16位参加运算？

囧辉：次要是为了在 table 的长度较小的时候，让高位也参加运算，并且不会有太大的开销。

例如下图，如果不退出高位运算，因为 n – 1 是 0000 0111，所以后果只取决于 hash 值的低3位，无论高位怎么变动，后果都是一样的。

如果咱们将高位参加运算，则索引计算结果就不会仅取决于低位。

二狗：扩容（resize）流程介绍下？

囧辉：

二狗：红黑树和链表都是通过 e.hash & oldCap == 0 来定位在新表的索引地位，这是为什么？

囧辉：请看对上面的例子。

扩容前 table 的容量为16，a 节点和 b 节点在扩容前处于同一索引地位。

扩容后，table 长度为32，新表的 n – 1 只比老表的 n – 1 在高位多了一个1（图中标红）。

因为 2 个节点在老表是同一个索引地位，因而计算新表的索引地位时，只取决于新表在高位多进去的这一位（图中标红），而这一位的值刚好等于 oldCap。

因为只取决于这一位，所以只会存在两种状况：1） (e.hash & oldCap) == 0 ，则新表索引地位为“原索引地位” ；2）(e.hash & oldCap) == 1，则新表索引地位为“原索引 + oldCap 地位”。

二狗：HashMap 是线程平安的吗？

囧辉：不是。HashMap 在并发下存在数据笼罩、遍历的同时进行批改会抛出 ConcurrentModificationException 异样等问题，JDK 1.8 之前还存在死循环问题。

二狗：介绍一下死循环问题？

囧辉：导致死循环的根本原因是 JDK 1.7 扩容采纳的是“头插法”，会导致同一索引地位的节点在扩容后程序反掉。而 JDK 1.8 之后采纳的是“尾插法”，扩容后节点程序不会反掉，不存在死循环问题。

JDK 1.7.0 的扩容代码如下，用例子来看会好了解点。

void transfer(Entry[] newTable) {

PS：这个流程较难了解，倡议对着代码本人模仿走一遍。

例子：咱们有1个容量为2的 HashMap，loadFactor=0.75，此时线程1和线程2 同时往该 HashMap 插入一个数据，都触发了扩容流程，接着有以下流程。

1）在2个线程都插入节点，触发扩容流程之前，此时的构造如下图。

2）线程1进行扩容，执行到代码：Entry<K,V> next = e.next 后被调度挂起，此时的构造如下图。

3）线程1被挂起后，线程2进入扩容流程，并走残缺个扩容流程，此时的构造如下图。

因为两个线程操作的是同一个 table，所以该图又能够画成如下图。

4）线程1复原后，持续走完第一次的循环流程，此时的构造如下图。

5）线程1持续走完第二次循环，此时的构造如下图。

6）线程1继续执行第三次循环，执行到 e.next = newTable[i] 时造成环，执行完第三次循环的构造如下图。

如果此时线程1调用 map.get(11) ，喜剧就呈现了——Infinite Loop。

二狗：（尼玛，没听懂，难堪了）那总结下 JDK 1.8 次要进行了哪些优化？

囧辉：JDK 1.8 的次要优化方才咱们都聊过了，次要有以下几点：

1）底层数据结构从“数组+链表”改成“数组+链表+红黑树”，次要是优化了 hash 抵触较重大时，链表过长的查找性能：O(n) -> O(logn)。

2）计算 table 初始容量的形式产生了扭转，老的形式是从1开始一直向左进行移位运算，直到找到大于等于入参容量的值；新的形式则是通过“5个移位+或等于运算”来计算。

// JDK 1.7.0

3）优化了 hash 值的计算形式，老的通过一顿瞎JB操作，新的只是简略的让高16位参加了运算。

// JDK 1.7.0

4）扩容时插入方式从“头插法”改成“尾插法”，防止了并发下的死循环。

5）扩容时计算节点在新表的索引地位形式从“h & (length-1)”改成“hash & oldCap”，性能可能晋升不大，但设计更奇妙、更优雅。

二狗：除了 HashMap，还用过哪些 Map，在应用时怎么抉择？

囧辉：

二狗：（不妙，这个 B HashMap 懂得比我还多，得连忙溜）到工夫和女朋友吃饭了，咱们之后再分输赢。

囧辉：

转载面试阿里HashMap-这一篇就够了

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

转载面试阿里HashMap-这一篇就够了

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复