关于java:HashMap夺命14问你能坚持到第几问

1. HashMap的底层数据结构是什么？

在JDK1.7中和JDK1.8中有所区别：

在JDK1.7中，由”数组+链表“组成，数组是HashMap的主体，链表则是次要为了解决哈希抵触而存在的。

在JDK1.8中，有“数组+链表+红黑树”组成。当链表过长，则会重大影响HashMap的性能，红黑树搜寻工夫复杂度是O(logn)，而链表是O(n)。因而，JDK1.8对数据结构做了进一步的优化，引入了红黑树，链表和红黑树在达到肯定条件会进行转换：

当链表超过8且数组长度(数据总量)超过64才会转为红黑树
将链表转换成红黑树前会判断，如果以后数组的长度小于64，那么会抉择先进行数组扩容，而不是转换为红黑树，以缩小搜寻工夫。

2. 说一下HashMap的特点

hashmap存取是无序的
键和值地位都能够是null，然而键地位只能是一个null
键地位是惟一的，底层的数据结构是控制键的
jdk1.8前数据结构是：链表+数组jdk1.8之后是：数组+链表+红黑树
阈值（边界值）>8并且数组长度大于64，才将链表转换成红黑树，变成红黑树的目标是进步搜寻速度，高效查问

3. 解决hash抵触的方法有哪些?HashMap用的哪种？

解决Hash抵触办法有：凋谢定址法、再哈希法、链地址法（HashMap中常见的拉链法）、简历公共溢出区。HashMap中采纳的是链地址法。

凋谢定址法也称为再散列法，根本思维就是，如果p=H(key)呈现抵触时，则以p为根底，再次hash，p1=H(p)，如果p1再次出现抵触，则以p1为根底，以此类推，直到找到一个不抵触的哈希地址pi。因而凋谢定址法所须要的hash表的长度要大于等于所须要寄存的元素，而且因为存在再次hash，所以只能在删除的节点上做标记，而不能真正删除节点
再哈希法（双重散列，多重散列），提供多个不同的hash函数，R1=H1(key1)发生冲突时，再计算R2=H2（key1），直到没有抵触为止。这样做尽管不易产生堆集，但减少了计算的工夫。
链地址法（拉链法），将哈希值雷同的元素形成一个同义词的单链表，并将单链表的头指针寄存在哈希表的第i个单元中，查找、插入和删除次要在同义词链表中进行，链表法实用于常常进行插入和删除的状况。
建设公共溢出区，将哈希表分为公共表和溢出表，当溢出产生时，将所有溢出数据对立放到溢出区

留神凋谢定址法和再哈希法的区别是

凋谢定址法只能应用同一种hash函数进行再次hash，再哈希法能够调用多种不同的hash函数进行再次hash

4. 为什么要在数组长度大于64之后，链表才会进化为红黑树

在数组比拟小时如果呈现红黑树结构，反而会升高效率，而红黑树须要进行左旋右旋，变色，这些操作来保持平衡，同时数组长度小于64时，搜寻工夫绝对要快些，总之是为了放慢搜寻速度，进步性能

JDK1.8以前HashMap的实现是数组+链表，即便哈希函数获得再好，也很难达到元素百分百均匀分布。当HashMap中有大量的元素都寄存在同一个桶中时，这个桶下有一条长长的链表，此时HashMap就相当于单链表，如果单链表有n个元素，遍历的工夫复杂度就从O（1）进化成O（n），齐全失去了它的劣势，为了解决此种状况，JDK1.8中引入了红黑树（查找的工夫复杂度为O（logn））来优化这种问题

5. 为什么加载因子设置为0.75，初始化临界值是12？

HashMap中的threshold是HashMap所能包容键值对的最大值。计算公式为length*LoadFactory。也就是说，在数组定义好长度之后，负载因子越大，所能包容的键值对个数也越大

loadFactory越趋近于1，那么数组中寄存的数据（entry也就越来越多），数据也就越密集，也就会有更多的链表长度处于更长的数值，咱们的查问效率就会越低，当咱们增加数据，产生hash抵触的概率也会更高

默认的loadFactory是0.75，loadFactory越小，越趋近于0，数组中个寄存的数据(entry)也就越少，体现得更加稠密

0.75是对空间和工夫效率的一种均衡抉择

如果负载因子小一些比方是0.4，那么初始长度16*0.4=6，数组占满6个空间就进行扩容，很多空间可能元素很少甚至没有元素，会造成大量的空间被节约

如果负载因子大一些比方是0.9，这样会导致扩容之前查找元素的效率非常低

loadfactory设置为0.75是通过多重计算测验失去的牢靠值，能够最大水平的缩小rehash的次数，防止过多的性能耗费

6. 哈希表底层采纳何种算法计算hash值？还有哪些算法能够计算出hash值？

hashCode办法是Object中的办法，所有的类都能够对其进行应用，首先底层通过调用hashCode办法生成初始hash值h1，而后将h1无符号右移16位失去h2，之后将h1与h2进行按位异或（^）运算失去最终hash值h3，之后将h3与(length-1)进行按位与（&）运算失去hash表索引

其余能够计算出hash值的算法有

平方取中法
取余数
伪随机数法

7. 当两个对象的hashCode相等时会怎么

hashCode相等产生hash碰撞，hashCode相等会调用equals办法比拟内容是否相等，内容如果相等则会进行笼罩，内容如果不等则会连贯到链表前方，链表长度超过8且数组长度超过64，会转变成红黑树节点

8. 何时产生哈希碰撞和什么是哈希碰撞，如何解决哈希碰撞？

只有两个元素的key计算的hash码值雷同就会产生hash碰撞，jdk8之前应用链表解决哈希碰撞，jdk8之后应用链表+红黑树解决哈希碰撞

9. HashMap的put办法流程

以jdk8为例，简要流程如下：

首先依据key的值计算hash值，找到该元素在数组中存储的下标
如果数组是空的，则调用resize进行初始化；
如果没有哈希抵触间接放在对应的数组下标里
如果抵触了，且key曾经存在，就笼罩掉value
如果抵触后是链表构造，就判断该链表是否大于8，如果大于8并且数组容量小于64，就进行扩容；如果链表节点数量大于8并且数组的容量大于64，则将这个构造转换成红黑树；否则，链表插入键值对，若key存在，就笼罩掉value
如果抵触后，发现该节点是红黑树，就将这个节点挂在树上

10. HashMap的扩容形式

HashMap在容量超过负载因子所定义的容量之后，就会扩容。java里的数组是无奈本人扩容的，将HashMap的大小扩充为原来数组的两倍

咱们来看jdk1.8扩容的源码

    final Node<K,V>[] resize() {
        //oldTab：援用扩容前的哈希表
        Node<K,V>[] oldTab = table;
        //oldCap：示意扩容前的table数组的长度
        int oldCap = (oldTab == null) ? 0 : oldTab.length;
        //取得旧哈希表的扩容阈值
        int oldThr = threshold;
        //newCap:扩容之后table数组大小
        //newThr:扩容之后下次触发扩容的条件
        int newCap, newThr = 0;
        //条件成立阐明hashMap中的散列表曾经初始化过了，是一次失常扩容
        if (oldCap > 0) {
            //判断旧的容量是否大于等于最大容量，如果是，则无奈扩容，并且设置扩容条件为int最大值，
            //这种状况属于十分多数的状况
            if (oldCap >= MAXIMUM_CAPACITY) {
                threshold = Integer.MAX_VALUE;
                return oldTab;
            }//设置newCap新容量为oldCap旧容量的二倍（<<1）,并且<最大容量，而且>=16，则新阈值等于旧阈值的两倍
            else if ((newCap = oldCap << 1) < MAXIMUM_CAPACITY &&
                     oldCap >= DEFAULT_INITIAL_CAPACITY)
                newThr = oldThr << 1; // double threshold
        }
        //如果oldCap=0并且边界值大于0，阐明散列表是null，但此时oldThr>0
        //阐明此时hashMap的创立是通过指定的构造方法创立的,新容量间接等于阈值
        //1.new HashMap(intitCap,loadFactor)
        //2.new HashMap(initCap)
        //3.new HashMap(map)
        else if (oldThr > 0) // initial capacity was placed in threshold
            newCap = oldThr;
        //这种状况下oldThr=0;oldCap=0，阐明没通过初始化，创立hashMap
        //的时候是通过new HashMap()的形式创立的
        else {               // zero initial threshold signifies using defaults
            newCap = DEFAULT_INITIAL_CAPACITY;
            newThr = (int)(DEFAULT_LOAD_FACTOR * DEFAULT_INITIAL_CAPACITY);
        }
        //newThr为0时，通过newCap和loadFactor计算出一个newThr
        if (newThr == 0) {
            //容量*0.75
            float ft = (float)newCap * loadFactor;
            newThr = (newCap < MAXIMUM_CAPACITY && ft < (float)MAXIMUM_CAPACITY ?
                      (int)ft : Integer.MAX_VALUE);
        }
        threshold = newThr;
        @SuppressWarnings({"rawtypes","unchecked"})
                //依据下面计算出的后果创立一个更长更大的数组
            Node<K,V>[] newTab = (Node<K,V>[])new Node[newCap];
        //将table指向新创建的数组
        table = newTab;
        //本次扩容之前table不为null
        if (oldTab != null) {
            //对数组中的元素进行遍历
            for (int j = 0; j < oldCap; ++j) {
                //设置e为以后node节点
                Node<K,V> e;
                //以后桶位数据不为空，但不能晓得外面是单个元素，还是链表或红黑树，
                //e = oldTab[j]，先用e记录下以后元素
                if ((e = oldTab[j]) != null) {
                    //将老数组j桶地位为空，不便回收
                    oldTab[j] = null;
                    //如果e节点不存在下一个节点，阐明e是单个元素，则间接搁置在新数组的桶位
                    if (e.next == null)
                        newTab[e.hash & (newCap - 1)] = e;
                    //如果e是树节点，证实该节点处于红黑树中
                    else if (e instanceof TreeNode)
                        ((TreeNode<K,V>)e).split(this, newTab, j, oldCap);
                    //e为链表节点，则对链表进行遍历
                    else { // preserve order
                        //低位链表：寄存在扩容之后的数组的下标地位，与以后数组下标地位统一
                        //loHead：低位链表头节点
                        //loTail低位链表尾节点
                        Node<K,V> loHead = null, loTail = null;
                        //高位链表，寄存扩容之后的数组的下标地位，=原索引+扩容之前数组容量
                        //hiHead:高位链表头节点
                        //hiTail:高位链表尾节点
                        Node<K,V> hiHead = null, hiTail = null;
                        Node<K,V> next;
                        do {
                            next = e.next;
                            //oldCap为16:10000，与e.hsah做&运算能够失去高位为1还是0
                            //高位为0，放在低位链表
                            if ((e.hash & oldCap) == 0) {
                                if (loTail == null)
                                    //loHead指向e
                                    loHead = e;
                                else
                                    loTail.next = e;
                                loTail = e;
                            }
                            //高位为1，放在高位链表
                            else {
                                if (hiTail == null)
                                    hiHead = e;
                                else
                                    hiTail.next = e;
                                hiTail = e;
                            }
                        } while ((e = next) != null);
                        //低位链表已成，将头节点loHead指向在原位
                        if (loTail != null) {
                            loTail.next = null;
                            newTab[j] = loHead;
                        }
                        //高位链表已成，将头节点指向新索引
                        if (hiTail != null) {
                            hiTail.next = null;
                            newTab[j + oldCap] = hiHead;
                        }
                    }
                }
            }
        }
        return newTab;
    }

扩容之后原地位的节点只有两种调整

放弃原地位不动（新bit位为0时）
散列原索引+扩容大小的地位去（新bit位为1时）

扩容之后元素的散列设置的十分奇妙，节俭了计算hash值的工夫，咱们来看一下具体的实现

当数组长度从16到32，其实只是多了一个bit位的运算，咱们只须要在意那个多进去的bit为是0还是1，是0的话索引不变，是1的话索引变为以后索引值+扩容的长度，比方5变成5+16=21

这样的扩容形式不仅节俭了从新计算hash的工夫，而且保障了以后桶中的元素总数肯定小于等于原来桶中的元素数量，防止了更重大的hash抵触，平均的把之前抵触的节点扩散到新的桶中去

11. 个别用什么作为HashMap的key？

个别用Integer、String这种不可变类当HashMap当key

因为String是不可变的，当创立字符串时，它的hashcode被缓存下来，不须要再次计算，绝对于其余对象更快
因为获取对象的时候要用到equals()和hashCode()办法，那么键对象正确的重写这两个办法是十分重要的，这些类很标准的重写了hashCode()以及equals()办法

12. 为什么Map桶中节点个数超过8才转为红黑树？

8作为阈值作为HashMap的成员变量，在源码的正文中并没有阐明阈值为什么是8

在HashMap中有这样一段正文阐明，咱们持续看

 * Because TreeNodes are about twice the size of regular nodes, we
 * use them only when bins contain enough nodes to warrant use
 * (see TREEIFY_THRESHOLD). And when they become too small (due to
 * removal or resizing) they are converted back to plain bins.  In
 * usages with well-distributed user hashCodes, tree bins are
 * rarely used.  Ideally, under random hashCodes, the frequency of
 * nodes in bins follows a Poisson distribution
 * (http://en.wikipedia.org/wiki/Poisson_distribution) with a
 * parameter of about 0.5 on average for the default resizing
 * threshold of 0.75, although with a large variance because of
 * resizing granularity. Ignoring variance, the expected
 * occurrences of list size k are (exp(-0.5) * pow(0.5, k) /
 * factorial(k)).

翻译

因为树节点的大小大概是一般节点的两倍，所以咱们只在箱子蕴含足够的节点时才应用树节点（参见TREEIFY_THRESHOLD）。
当他们边的太小（因为删除或调整大小）时，就会被转换回一般的桶，在应用散布良好的hashcode时，很少应用树箱。
现实状况下，在随机哈希码下，箱子中节点的频率遵从泊松散布
第一个值是：

 * 0:    0.60653066
 * 1:    0.30326533
 * 2:    0.07581633
 * 3:    0.01263606
 * 4:    0.00157952
 * 5:    0.00015795
 * 6:    0.00001316
 * 7:    0.00000094
 * 8:    0.00000006
 * more: less than 1 in ten million

树节点占用空间是一般Node的两倍，如果链表节点不够多却转换成红黑树，无疑会消耗大量的空间资源，并且在随机hash算法下的所有bin节点散布频率听从泊松散布，链表长度达到8的概率只有0.00000006，简直是不可能事件，所以8的计算是通过重重迷信考量的

从均匀查找长度来看，红黑树的均匀查找长度是logn，如果长度为8，则logn=3，而链表的均匀查找长度为n/4，长度为8时，n/2=4，所以阈值8能大大提高搜寻速度
当长度为6时红黑树进化为链表是因为logn=log6约等于2.6，而n/2=6/2=3，两者相差不大，而红黑树节点占用更多的内存空间，所以此时转换最为敌对

13. HashMap为什么线程不平安？

多线程下扩容死循环。JDK1.7中的HashMap应用头插法插入元素，在多线程的环境下，扩容的时候有可能导致环形链表的呈现，造成死循环。因而JDK1.8应用尾插法插入元素，在扩容时会放弃链表元素本来的程序，不会呈现环形链表的问题
多线程的put可能导致元素的失落。多线程同时执行put操作，如果计算出来的索引地位是雷同的，那会造成前一个key被后一个key笼罩，从而导致元素的失落。此问题在JDK1.7和JDK1.8中都存在
put和get并发时，可能导致get为null。线程1执行put时，因为元素个数超出threshold而导致rehash，线程2此时执行get，有可能导致这个问题，此问题在JDK1.7和JDK1.8中都存在

14. 计算hash值时为什么要让低16bit和高16bit进行异或解决

咱们计算索引须要将hashCode值与length-1进行按位与运算，如果数组长度很小，比方16，这样的值和hashCode做异或实际上只有hashCode值的后4位在进行运算，hash值是一个随机值，而如果产生的hashCode值高位变化很大，而低位变动很小，那么有很大概率造成哈希抵触，所以咱们为了使元素更好的散列，将hash值的高位也利用起来\

举个例子

如果咱们不对hashCode进行按位异或，间接将hash和length-1进行按位与运算就有可能呈现以下的状况

如果下一次生成的hashCode值高位起伏很大，而低位简直没有变动时，高位无奈参加运算

能够看到，两次计算出的hash相等，产生了hash抵触

所以无符号右移16位的目标是使高凌乱度地区与地凌乱度地区做一个中和，进步低位的随机性，缩小哈希抵触

文章中呈现的对于面试题的谬误请在评论区指出，我再进行改过优化。如果文章对你有所帮忙，请给团长一个收费的赞吧，感激大家。

关于java:HashMap夺命14问你能坚持到第几问

1. HashMap的底层数据结构是什么？

2. 说一下HashMap的特点

3. 解决hash抵触的方法有哪些?HashMap用的哪种？

4. 为什么要在数组长度大于64之后，链表才会进化为红黑树

5. 为什么加载因子设置为0.75，初始化临界值是12？

6. 哈希表底层采纳何种算法计算hash值？还有哪些算法能够计算出hash值？

7. 当两个对象的hashCode相等时会怎么

8. 何时产生哈希碰撞和什么是哈希碰撞，如何解决哈希碰撞？

9. HashMap的put办法流程

10. HashMap的扩容形式

11. 个别用什么作为HashMap的key？

12. 为什么Map桶中节点个数超过8才转为红黑树？

13. HashMap为什么线程不平安？

14. 计算hash值时为什么要让低16bit和高16bit进行异或解决

评论

发表回复取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

关于java:HashMap夺命14问你能坚持到第几问

1. HashMap的底层数据结构是什么？

2. 说一下HashMap的特点

3. 解决hash抵触的方法有哪些?HashMap用的哪种？

4. 为什么要在数组长度大于64之后，链表才会进化为红黑树

5. 为什么加载因子设置为0.75，初始化临界值是12？

6. 哈希表底层采纳何种算法计算hash值？还有哪些算法能够计算出hash值？

7. 当两个对象的hashCode相等时会怎么

8. 何时产生哈希碰撞和什么是哈希碰撞，如何解决哈希碰撞？

9. HashMap的put办法流程

10. HashMap的扩容形式

11. 个别用什么作为HashMap的key？

12. 为什么Map桶中节点个数超过8才转为红黑树？

13. HashMap为什么线程不平安？

14. 计算hash值时为什么要让低16bit和高16bit进行异或解决

评论

发表回复 取消回复

更多文章

DDN HPC 存储硬件架构设计深度分析

探秘IO500：从Lustre并行文件系统出发，开启HPC存储性能新征程

苹果iOS打包的ipa应用无法安装？一篇文章带你了解可能的原因及排查方法

图解Golang：从零开始实现简易版过期LRU缓存

发表回复取消回复