HashMap 也是咱们应用十分多的 Collection,它是基于哈希表的 Map 接口的实现,以 key-value 的模式存在。在 HashMap 中,key-value 总是会当做一个整体来解决,零碎会依据 hash 算法来来计算 key-value 的存储地位,咱们总是能够通过 key 疾速地存、取 value。上面就来剖析 HashMap 的存取。
一、定义
HashMap 实现了 Map 接口,继承 AbstractMap。其中 Map 接口定义了键映射到值的规定,而 AbstractMap 类提供 Map 接口的骨干实现,以最大限度地缩小实现此接口所需的工作,其实 AbstractMap 类曾经实现了 Map,这里标注 Map LZ 感觉应该是更加清晰吧!
复制代码
public class HashMap<K,V>
extends AbstractMap<K,V>
implements Map<K,V>, Cloneable, Serializable
{
/**
* The default initial capacity - MUST be a power of two.
*/
static final int DEFAULT_INITIAL_CAPACITY = 1 << 4; // aka 16
/**
* The maximum capacity, used if a higher value is implicitly specified
* by either of the constructors with arguments.
* MUST be a power of two <= 1<<30.
*/
static final int MAXIMUM_CAPACITY = 1 << 30;
/**
* The load factor used when none specified in constructor.
*/
static final float DEFAULT_LOAD_FACTOR = 0.75f;
/**
* An empty table instance to share when the table is not inflated.
*/
static final Entry<?,?>[] EMPTY_TABLE = {};
/**
* The table, resized as necessary. Length MUST Always be a power of two.
*/
transient Entry<K,V>[] table = (Entry<K,V>[]) EMPTY_TABLE;
/**
* The number of key-value mappings contained in this map.
*/
transient int size;
/**
* The next size value at which to resize (capacity * load factor).
* @serial
*/
// If table == EMPTY_TABLE then this is the initial capacity at which the
// table will be created when inflated.
int threshold;
/**
* The load factor for the hash table.
*
* @serial
*/
final float loadFactor;
/**
* The number of times this HashMap has been structurally modified
* Structural modifications are those that change the number of mappings in
* the HashMap or otherwise modify its internal structure (e.g.,
* rehash). This field is used to make iterators on Collection-views of
* the HashMap fail-fast. (See ConcurrentModificationException).
*/
transient int modCount;
/**
* The default threshold of map capacity above which alternative hashing is
* used for String keys. Alternative hashing reduces the incidence of
* collisions due to weak hash code calculation for String keys.
* <p/>
* This value may be overridden by defining the system property
* {@code jdk.map.althashing.threshold}. A property value of {@code 1}
* forces alternative hashing to be used at all times whereas
* {@code -1} value ensures that alternative hashing is never used.
*/
static final int ALTERNATIVE_HASHING_THRESHOLD_DEFAULT = Integer.MAX_VALUE;
}
复制代码
二、构造函数
HashMap 提供了三个构造函数:HashMap():结构一个具备默认初始容量 (16) 和默认加载因子 (0.75) 的空 HashMap。HashMap(int initialCapacity):结构一个带指定初始容量和默认加载因子 (0.75) 的空 HashMap。HashMap(int initialCapacity, float loadFactor):结构一个带指定初始容量和加载因子的空 HashMap。在这里提到了两个参数:初始容量,加载因子。这两个参数是影响 HashMap 性能的重要参数,其中容量示意哈希表中桶的数量,初始容量是创立哈希表时的容量,加载因子是哈希表在其容量主动减少之前能够达到多满的一种尺度,它掂量的是一个散列表的空间的应用水平,负载因子越大示意散列表的装填水平越高,反之愈小。对于应用链表法的散列表来说,查找一个元素的均匀工夫是 O(1+a),因而如果负载因子越大,对空间的利用更充沛,然而结果是查找效率的升高;如果负载因子太小,那么散列表的数据将过于稠密,对空间造成重大节约。零碎默认负载因子为 0.75,个别状况下咱们是无需批改的。HashMap 是一种反对疾速存取的数据结构,要理解它的性能必须要理解它的数据结构。
三、数据结构
咱们晓得在 Java 中最罕用的两种构造是数组和模仿指针(援用),简直所有的数据结构都能够利用这两种来组合实现,HashMap 也是如此。实际上 HashMap 是一个“链表散列”,如下是它数据结构:
HashMap 数据结构图_thumb[13]
从上图咱们能够看出 HashMap 底层实现还是数组,只是数组的每一项都是一条链。其中参数 initialCapacity 就代表了该数组的长度。上面为 HashMap 构造函数的源码:
复制代码
public HashMap(int initialCapacity, float loadFactor) {
if (initialCapacity < 0)
throw new IllegalArgumentException("Illegal initial capacity:" +
initialCapacity);
if (initialCapacity > MAXIMUM_CAPACITY)
initialCapacity = MAXIMUM_CAPACITY;
if (loadFactor <= 0 || Float.isNaN(loadFactor))
throw new IllegalArgumentException("Illegal load factor:" +
loadFactor);
this.loadFactor = loadFactor;
threshold = initialCapacity;
init();}
复制代码
从源码中能够看出,每次新建一个 HashMap 时,都会初始化一个 table 数组。table 数组的元素为 Entry 节点。
static class Entry<K,V> implements Map.Entry<K,V> {
final K key;
V value;
Entry<K,V> next;
int hash;
}
其中 Entry 为 HashMap 的外部类,它蕴含了键 key、值 value、下一个节点 next,以及 hash 值,这是十分重要的,正是因为 Entry 才形成了 table 数组的项为链表。
下面简略剖析了 HashMap 的数据结构,上面将探讨 HashMap 是如何实现疾速存取的。
四、存储实现:put(key,vlaue)
首先咱们先看源码
复制代码
public V put(K key, V value) {
// 当 key 为 null,调用 putForNullKey 办法,保留 null 与 table 第一个地位中,这是 HashMap 容许为 null 的起因
if (key == null)
return putForNullKey(value);
// 计算 key 的 hash 值
int hash = hash(key.hashCode()); ------(1)
// 计算 key hash 值在 table 数组中的地位
int i = indexFor(hash, table.length); ------(2)
// 从 i 出开始迭代 e, 找到 key 保留的地位
for (Entry<K, V> e = table[i]; e != null; e = e.next) {
Object k;
// 判断该条链上是否有 hash 值雷同的(key 雷同)
// 若存在雷同,则间接笼罩 value,返回旧 value
if (e.hash == hash && ((k = e.key) == key || key.equals(k))) {
V oldValue = e.value; // 旧值 = 新值
e.value = value;
e.recordAccess(this);
return oldValue; // 返回旧值
}
}
// 批改次数减少 1
modCount++;
// 将 key、value 增加至 i 地位处
addEntry(hash, key, value, i);
return null;
}
复制代码
通过源码咱们能够清晰看到 HashMap 保留数据的过程为:首先判断 key 是否为 null,若为 null,则间接调用 putForNullKey 办法。若不为空则先计算 key 的 hash 值,而后依据 hash 值搜寻在 table 数组中的索引地位,如果 table 数组在该地位处有元素,则通过比拟是否存在雷同的 key,若存在则笼罩原来 key 的 value,否则将该元素保留在链头(最先保留的元素放在链尾)。若 table 在该处没有元素,则间接保留。这个过程看似比较简单,其实深有底细。有如下几点:
1、先看迭代处。此处迭代起因就是为了避免存在雷同的 key 值,若发现两个 hash 值(key)雷同时,HashMap 的解决形式是用新 value 替换旧 value,这里并没有解决 key,这就解释了 HashMap 中没有两个雷同的 key。2、在看(1)、(2)处。这里是 HashMap 的精髓所在。首先是 hash 办法,该办法为一个纯正的数学计算,就是计算 h 的 hash 值。
复制代码
final int hash(Object k) {
int h = hashSeed;
if (0 != h && k instanceof String) {return sun.misc.Hashing.stringHash32((String) k);
}
h ^= k.hashCode();
// This function ensures that hashCodes that differ only by
// constant multiples at each bit position have a bounded
// number of collisions (approximately 8 at default load factor).
h ^= (h >>> 20) ^ (h >>> 12);
return h ^ (h >>> 7) ^ (h >>> 4);
}
复制代码
HashMap 的底层数组长度总是 2 的 n 次方,在构造函数中存在:capacity <<= 1; 这样做总是可能保障 HashMap 的底层数组长度为 2 的 n 次方。当 length 为 2 的 n 次方时,h&(length – 1) 就相当于对 length 取模,而且速度比间接取模快得多,这是 HashMap 在速度上的一个优化。至于为什么是 2 的 n 次方上面解释。
咱们回到 indexFor 办法,该办法仅有一条语句:h&(length - 1),这句话除了下面的取模运算外还有一个十分重要的责任:均匀分布 table 数据和充分利用空间。这里咱们假如 length 为 16(2^n)和 15,h 为 5、6、7。
table1_thumb[3]
当 n =15 时,6 和 7 的后果一样,这样示意他们在 table 存储的地位是雷同的,也就是产生了碰撞,6、7 就会在一个地位造成链表,这样就会导致查问速度升高。诚然这里只剖析三个数字不是很多,那么咱们就看 0 -15。
table2_thumb[16]
从下面的图表中咱们看到总共产生了 8 此碰撞,同时发现节约的空间十分大,有 1、3、5、7、9、11、13、15 处没有记录,也就是没有存放数据。这是因为他们在与 14 进行 & 运算时,失去的后果最初一位永远都是 0,即 0001、0011、0101、0111、1001、1011、1101、1111 地位处是不可能存储数据的,空间缩小,进一步减少碰撞几率,这样就会导致查问速度慢。而当 length = 16 时,length – 1 = 15 即 1111,那么进行低位 & 运算时,值总是与原来 hash 值雷同,而进行高位运算时,其值等于其低位值。所以说当 length = 2^n 时,不同的 hash 值产生碰撞的概率比拟小,这样就会使得数据在 table 数组中散布较平均,查问速度也较快。这里咱们再来温习 put 的流程:当咱们想一个 HashMap 中增加一对 key-value 时,零碎首先会计算 key 的 hash 值,而后依据 hash 值确认在 table 中存储的地位。若该地位没有元素,则直接插入。否则迭代该处元素链表并依此比拟其 key 的 hash 值。如果两个 hash 值相等且 key 值相等(e.hash == hash && ((k = e.key) == key || key.equals(k))), 则用新的 Entry 的 value 笼罩原来节点的 value。如果两个 hash 值相等但 key 值不等,则将该节点插入该链表的链头。具体的实现过程见 addEntry 办法,如下:
复制代码
void addEntry(int hash, K key, V value, int bucketIndex) {
if ((size >= threshold) && (null != table[bucketIndex])) {resize(2 * table.length);
hash = (null != key) ? hash(key) : 0;
bucketIndex = indexFor(hash, table.length);
}
createEntry(hash, key, value, bucketIndex);
}
复制代码
这个办法中有两点须要留神:
一是链的产生。这是一个十分优雅的设计。零碎总是将新的 Entry 对象增加到 bucketIndex 处。如果 bucketIndex 处曾经有了对象,那么新增加的 Entry 对象将指向原有的 Entry 对象,造成一条 Entry 链,然而若 bucketIndex 处没有 Entry 对象,也就是 e ==null, 那么新增加的 Entry 对象指向 null,也就不会产生 Entry 链了。二、扩容问题。随着 HashMap 中元素的数量越来越多,产生碰撞的概率就越来越大,所产生的链表长度就会越来越长,这样势必会影响 HashMap 的速度,为了保障 HashMap 的效率,零碎必须要在某个临界点进行扩容解决。该临界点在当 HashMap 中元素的数量等于 table 数组长度 * 加载因子。然而扩容是一个十分耗时的过程,因为它须要从新计算这些数据在新 table 数组中的地位并进行复制解决。所以如果咱们曾经预知 HashMap 中元素的个数,那么预设元素的个数可能无效的进步 HashMap 的性能。
五、读取实现:get(key)
绝对于 HashMap 的存而言,取就显得比较简单了。通过 key 的 hash 值找到在 table 数组中的索引处的 Entry,而后返回该 key 对应的 value 即可。
复制代码
public V get(Object key) {
if (key == null)
return getForNullKey();
Entry<K,V> entry = getEntry(key);
return null == entry ? null : entry.getValue();}
final Entry<K,V> getEntry(Object key) {
if (size == 0) {return null;}
int hash = (key == null) ? 0 : hash(key);
for (Entry<K,V> e = table[indexFor(hash, table.length)];
e != null;
e = e.next) {
Object k;
if (e.hash == hash &&
((k = e.key) == key || (key != null && key.equals(k))))
return e;
}
return null;
}
复制代码
在这里可能依据 key 疾速的取到 value 除了和 HashMap 的数据结构密不可分外,还和 Entry 有莫大的关系,在后面就提到过,HashMap 在存储过程中并没有将 key,value 离开来存储,而是当做一个整体 key-value 来解决的,这个整体就是 Entry 对象。同时 value 也只相当于 key 的从属而已。在存储的过程中,零碎依据 key 的 hashcode 来决定 Entry 在 table 数组中的存储地位,在取的过程中同样依据 key 的 hashcode 取出绝对应的 Entry 对象。