這次我和大家一起學習HashMap, HashMap我們在工作中經常會使用, 而且面試中也很頻繁會問到, 因為它裡面蘊含著很多知識點, 可以很好的考察個人基礎。 但一個這麼重要的東西, 我為什麼沒有在一開始就去學習它呢, 因為它是由多種基礎的資料結構和一些代碼設計思想組成的。 我們要學習了這些基礎, 再學習HashMap, 這樣我們才能更好的去理解它。 古人雲:無欲速, 無見小利。 欲速則不達, 見小利則大事不成。 HashMap其實就是ArrayList和LinkedList的資料結構加上hashCode和equals方法的思想設計出來的。 沒有理解上述說的知識點的同學可以翻開我過往的文章記錄。
下面我就以面試問答的形式學習我們的——HashMap(源碼分析基於JDK8, 輔以JDK7), 問答內容只是對HashMap的一個總結歸納。
問答內容1.問:HashMap有用過嗎?您能給我說說他的主要用途嗎?
答:
HashMap是基於Map介面實現的一種鍵-值對
示例代碼:
// 創建一個HashMap, 如果沒有指定初始大小, 預設底層hash表陣列的大小為16 HashMapHashMap的底層實現是陣列 + 鏈表 + 紅黑樹(JDK1.8增加了紅黑樹部分),
int size;用於記錄HashMap實際存儲元素的個數;
float loadFactor;負載因數(預設是0.75, 此屬性後面詳細解釋)。
int threshold;下一次擴容時的閾值, 達到閾值便會觸發擴容機制resize(閾值 threshold = 容器容量 capacity * 負載因數 load factor)。 也就是說, 在容器定義好容量之後, 負載因數越大, 所能容納的鍵值對元素個數就越多。
Node
示例代碼:
public class HashMap其中Node
final int hash;元素的雜湊值,
決定元素存儲在Node
final K key鍵, 由final修飾可知,
V value;值
Node
示例代碼:
/** * 定義HashMap存儲元素結點的底層實現 */ static class Node
hashMap記憶體結構圖
2.
問:您能說說HashMap常用操作的底層實現原理嗎?如存儲put(K key, V value), 查找get(Object key), 刪除remove(Object key), 修改replace(K key, V value)等操作。
答:
調用put(K key, V value)操作添加key-value鍵值對時, 進行了如下操作:
判斷雜湊表Node
根據插入的鍵值key的hash值, 通過(n - 1) & hash當前元素的hash值 &hash表長度 - 1(實際就是hash值 %hash表長度) 計算出存儲位置table[i]。 如果存儲位置沒有元素存放, 則將新增結點存儲在此位置table[i]。
如果存儲位置已經有鍵值對元素存在, 則判斷該位置元素的hash值和key值是否和當前操作元素一致, 一致則證明是修改value操作,覆蓋value即可。
當前存儲位置即有元素,又不和當前操作元素一致,則證明此位置table[i]已經發生了hash衝突,則通過判斷頭結點是否是treeNode,如果是treeNode則證明此位置的結構是紅黑樹,已紅黑樹的方式新增結點。
如果不是紅黑樹,則證明是單鏈表,將新增結點插入至鏈表的最後位置,隨後判斷當前鏈表長度是否 大於等於 8,是則將當前存儲位置的鏈表轉化為紅黑樹。遍歷過程中如果發現key已經存在,則直接覆蓋value。
插入成功後,判斷當前存儲鍵值對的數量 大於 閾值threshold是則擴容。
hashMap put方法執行流程圖
示例代碼:
調用get(Object key)操作根據鍵key查找對應的key-value鍵值對時,進行了如下操作:
先調用hash(key)方法計算出key的hash值
根據查找的鍵值key的hash值,通過(n - 1) & hash當前元素的hash值 &hash表長度 - 1(實際就是hash值 %hash表長度)計算出存儲位置table[i],判斷存儲位置是否有元素存在 。
如果存儲位置有元素存放,但是頭結點元素不是要查找的元素,則需要遍歷該位置進行查找。
先判斷頭結點是否是treeNode,如果是treeNode則證明此位置的結構是紅黑樹,以紅色樹的方式遍歷查找該結點,沒有則返回null。
如果不是紅黑樹,則證明是單鏈表。遍歷單鏈表,逐一比較鏈表結點,鏈表結點的key的hash值和要獲取的key的hash
值相等,並且 鏈表結點的key本身和要獲取的key相等,則返回該結點,遍歷結束仍未找到對應key的結點,則返回null。
示例代碼:
/** * 返回指定 key 所映射的 value 值 * 或者 返回 null 如果容器裡不存在對應的key * * 更確切地講,如果此映射包含一個滿足 (key==null ? k==null :key.equals(k)) * 的從 k 鍵到 v 值的映射關係, * 則此方法返回 v;否則返回 null。(最多只能有一個這樣的映射關係。) * * 返回 null 值並不一定 表明該映射不包含該鍵的映射關係; * 也可能該映射將該鍵顯示地映射為 null。可使用containsKey操作來區分這兩種情況。 * * @see #put(Object, Object) */ public V get(Object key) { Node調用remove(Object key)操作根據鍵key刪除對應的key-value鍵值對時,進行了如下操作:
先調用hash(key)方法計算出key的hash值
根據查找的鍵值key的hash值,通過(n - 1) & hash當前元素的hash值 &hash表長度 - 1(實際就是hash值 %hash表長度) 計算出存儲位置table[i],判斷存儲位置是否有元素存在 。
如果存儲位置有元素存放,但是頭結點元素不是要刪除的元素,則需要遍歷該 位置進行查找。
先判斷頭結點是否是treeNode,如果是treeNode則證明此位置的結構是紅黑樹,以紅色樹的方式遍歷查找並刪除該結點,沒有則返回null。
如果不是紅黑樹,則證明是單鏈表。遍歷單鏈表,逐一比較鏈表結點,鏈表結點的key的hash值和要獲取的key的hash
值相等,並且鏈表結點的key本身和要獲取的key相等,則此為要刪除的結點,記錄此結點至變數node中,遍歷結束仍未找到對應key的結點,則返回null。
如果找到要刪除的結點node,則判斷是否需要比較value也是否一致,如果value值一致或者不需要比較value
值,則執行刪除結點操作,刪除操作根據不同的情況與結構進行不同的處理。
如果當前結點是樹結點,則證明當前位置的鏈表已變成紅黑樹結構,通過紅黑樹結點的方式刪除對應結點。
如果不是紅黑樹,則證明是單鏈表。如果要刪除的是頭結點,則當前存儲位置table[i]的頭結點指向刪除結點的下一個結點。
如果要刪除的結點不是頭結點,則將要刪除的結點的後繼結點node.next賦值給要刪除結點的前驅結點的next
域,即p.next = node.next;。
7.HashMap當前存儲鍵值對的數量 - 1,並返回刪除結點。
示例代碼:
/** * 從此映射中移除指定鍵的映射關係(如果存在)。 * * @param key 其映射關係要從映射中移除的鍵 * @return 與 key 關聯的舊值;如果 key 沒有任何映射關係,則返回 null。 * (返回 null 還可能表示該映射之前將 null 與 key 關聯。) */ public V remove(Object key) { Node調用replace(K key, V value)操作根據鍵key查找對應的key-value鍵值對,隨後替換對應的值value,進行了如下操作:
先調用hash(key)方法計算出key的hash值
隨後調用getNode方法獲取對應key所映射的value值 。
記錄元素舊值,將新值賦值給元素,返回元素舊值,如果沒有找到元素,則返回null。
示例代碼:
/** * 替換指定 key 所映射的 value 值 * * @param key 對應要替換value值元素的key鍵 * @param value 要替換對應元素的新value值 * @return 返回原本的舊值,如果沒有找到key對應的元素,則返回null * @since 1.8 JDK1.8新增方法 */ public V replace(K key, V value) { Node3.
問 1:您上面說,存放一個元素時,先計算它的hash值確定它的存儲位置,然後再把這個元素放到對應的位置上,那萬一這個位置上面已經有元素存在呢,新增的這個元素怎麼辦?
問 2:hash衝突(或者叫hash碰撞)是什麼?為什麼會出現這種現象,如何解決hash衝突?
答:
hash衝突: 當我們調用put(K key, V value)操作添加key-value鍵值對,這個key-value鍵值對存放在的位置是通過擾動函數(key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16)計算鍵key的hash值。隨後將這個hash值%模上雜湊表Node
例子如下:
元素A的hash值為 9,元素B的hash值為17。雜湊表Node
,元素 B 的存放位置為17 % 8 = 1。兩個元素的存放位置均為table[1],發生了hash衝突。
hash衝突的避免:既然會發生hash衝突,我們就應該想辦法避免此現象的發生,解決這個問題最關鍵就是如果生成元素的hash值。Java是使用“擾動函數”生成元素的hash值。
示例代碼:
/** * JDK 7 的 hash方法 */ final int hash(int h) { h ^= k.hashCode(); h ^= (h >>> 20) ^ (h >>> 12); return h ^ (h >>> 7) ^ (h >>> 4); } /** * JDK 8 的 hash方法 */ static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); }Java7做了4次16位右位移異或混合,Java 8中這步已經簡化了,只做一次16位右位移異或混合,而不是四次,但原理是不變的。例子如下:
擾動函數執行例子
右位移16位,正好是32bit的一半,自己的高半區和低半區做異或,就是為了混合原始雜湊碼的高位和低位元,以此來加大低位的隨機性。而且混合後的低位元摻雜了高位的部分特徵,這樣高位的資訊也被變相保留下來。
上述擾動函數的解釋參考自:JDK 源碼中 HashMap 的 hash 方法原理是什麼?
hash衝突解決:解決hash衝突的方法有很多,常見的有:開發定址法,再散列法,鏈地址法,公共溢位區域法(詳細說明請查看我的文章JAVA基礎-自問自答學hashCode和equals)。HashMap是使用鏈位址法解決hash衝突的,當有衝突元素放進來時,會將此元素插入至此位置鏈表的最後一位,形成單鏈表。但是由於是單鏈表的緣故,每當通過hash % length找到該位置的元素時,均需要從頭遍歷鏈表,通過逐一比較hash值,找到對應元素。如果此位置元素過多,造成鏈表過長,遍歷時間會大大增加,最壞情況下的時間複雜度為O(N),造成查找效率過低。所以當存在位置的鏈表長度 大於等於 8 時,HashMap會將鏈表 轉變為 紅黑樹,紅黑樹最壞情況下的時間複雜度為O(logn)。以此提高查找效率。
4.
問:HashMap的容量為什麼一定要是2的n次方?
答:
因為調用put(K key, V value)操作添加key-value鍵值對時,具體確定此元素的位置是通過hash值%模上雜湊表Node
。
而且當陣列長度為2的n次冪的時候,不同的key算出的index相同的幾率較小,那麼資料在陣列上分佈就比較均勻,也就是說碰撞的幾率小,相對的,查詢的時候就不用遍歷某個位置上的鏈表,這樣查詢效率也就較高了。
例子:
hash & (length-1)運算過程
上圖中,左邊兩組的陣列長度是16(2的4次方),右邊兩組的陣列長度是15。兩組的hash值均為8和9。
當陣列長度是15時,當它們和1110進行&與運算(相同為1,不同為0)時,計算的結果都是1000
,所以他們都會存放在相同的位置table[8]中,這樣就發生了hash衝突,那麼查詢時就要遍歷鏈表,逐一比較hash
值,降低了查詢的效率。
同時,我們可以發現,當陣列長度為15的時候,hash值均會與14(1110)進行&與運算,那麼最後一位永遠是0,而0001,0011,0101,1001,1011,0111,1101這幾個位置永遠都不能存放元素了,空間浪費相當大,更糟的是這種情況中,陣列可以使用的位置比陣列長度小了很多,這意味著進一步增加了碰撞的幾率,減慢了查詢的效率。
所以,HashMap的容量是2的n次方,有利於提高計算元素存放位置時的效率,也降低了hash衝突的幾率。因此,我們使用HashMap存儲大量資料的時候,最好先預先指定容器的大小為2的n次方,即使我們不指定為2的n次方,HashMap
也會把容器的大小設置成最接近設置數的2的n次方,如,設置HashMap的大小為 7 ,則HashMap會將容器大小設置成最接近7的一個2的n次方數,此值為 8 。
示例代碼:
5.
問:HashMap的負載因數是什麼,有什麼作用?
答:負載因數表示雜湊表空間的使用程度(或者說是雜湊表空間的利用率)。
例子如下:
底層雜湊表Node
當負載因數越大,則HashMap的裝載程度就越高。也就是能容納更多的元素,元素多了,發生hash碰撞的幾率就會加大,從而鏈表就會拉長,此時的查詢效率就會降低。
當負載因數越小,則鏈表中的資料量就越稀疏,此時會對空間造成浪費,但是此時查詢效率高。
我們可以在創建HashMap時根據實際需要適當地調整load factor的值;如果程式比較關心空間開銷、記憶體比較緊張,可以適當地增加負載因數;如果程式比較關心時間開銷,記憶體比較寬裕則可以適當的減少負載因數。通常情況下,預設負載因數 (0.75) 在時間和空間成本上尋求一種折衷,程式師無需改變負載因數的值。
因此,如果我們在初始化HashMap時,就預估知道需要裝載key-value鍵值對的容量size,我們可以通過size / load factor計算出我們需要初始化的容量大小initialCapacity,這樣就可以避免HashMap因為存放的元素達到閾值threshold而頻繁調用resize()方法進行擴容。從而保證了較好的性能。
6.
問:您能說說HashMap和HashTable的區別嗎?
答:HashMap和HashTable有如下區別:
1)容器整體結構:
2) 容量設定與擴容機制:
3) 散列分佈方式(計算存儲位置):
HashMap是先將key鍵的hashCode經過擾動函數擾動後得到hash值,然後再利用hash & (length - 1)的方式代替取模,得到元素的存儲位置。
Hashtable則是除留餘數法進行計算存儲位置的(因為其預設容量也不是2的n次方。所以也無法用位運算替代模運算),int index = (hash & 0x7FFFFFFF) % tab.length;。
由於HashMap的容器容量一定是2的n次方,所以能使用hash & (length - 1)的方式代替取模的方式計算元素的位置提高運算效率,但Hashtable的容器容量不一定是2的n次方,所以不能使用此運算方式代替。
4)執行緒安全(最重要):
HashMap不是執行緒安全,如果想執行緒安全,可以通過調用synchronizedMap(Map
Hashtable則是執行緒安全的,每個操作方法前都有synchronized修飾使其同步,但運行效率也不高,所以還是建議使用容器以此達到執行緒安全。
因此,Hashtable是一個遺留容器,如果我們不需要執行緒同步,則建議使用HashMap,如果需要執行緒同步,則建議使用ConcurrentHashMap。
7.
問:您說HashMap不是執行緒安全的,那如果多執行緒下,它是如何處理的?並且什麼情況下會發生執行緒不安全的情況?
答:
HashMap不是執行緒安全的,如果多個執行緒同時對同一個HashMap更改資料的話,會導致資料不一致或者資料污染。如果出現執行緒不安全的操作時,HashMap會盡可能的拋出ConcurrentModificationException防止資料異常,當我們在對一個HashMap進行遍歷時,在遍歷期間,我們是不能對HashMap進行添加,刪除等更改資料的操作的,否則也會拋出ConcurrentModificationException異常,此為fail-fast(快速失敗)機制。從源碼上分析,我們在put,remove
等更改HashMap資料時,都會導致modCount的改變,當expectedModCount != modCount時,則拋出ConcurrentModificationException。如果想要執行緒安全,可以考慮使用ConcurrentHashMap。
而且,在多執行緒下操作HashMap,由於存在擴容機制,當HashMap調用resize()進行自動擴容時,可能會導致閉環的發生。限於篇幅,我暫不帶著大家一起去分析resize()方法導致閉環發生的現象造成原因了,遲點有空我會再補充上去,請見諒,大家可以參考如下文章:
8.
問:我們在使用HashMap時,選取什麼物件作為key鍵比較好,為什麼?
答:
可變對象:指創建後自身狀態能改變的物件。換句話說,可變物件是該物件在創建後它的雜湊值可能被改變。
我們在使用HashMap時,最好選擇不可變物件作為key。例如String,Integer等不可變類型作為key
是非常明智的。如果key物件是可變的,那麼key的雜湊值就可能改變。在HashMap中可變物件作為Key會造成資料丟失。因為我們再進行hash & (length - 1)取模運算計算位置查找對應元素時,位置可能已經發生改變,導致資料丟失。
HashMap是基於Map介面實現的一種鍵-值對
HashMap定位元素位置是通過鍵key經過擾動函數擾動後得到hash值,然後再通過hash & (length - 1)代替取模的方式進行元素定位的。
HashMap是使用鏈位址法解決hash衝突的,當有衝突元素放進來時,會將此元素插入至此位置鏈表的最後一位,形成單鏈表。當存在位置的鏈表長度 大於等於 8 時,HashMap會將鏈表 轉變為 紅黑樹,以此提高查找效率。
HashMap的容量是2的n次方,有利於提高計算元素存放位置時的效率,也降低了hash衝突的幾率。因此,我們使用HashMap。存儲大量資料的時候,最好先預先指定容器的大小為2的n次方,即使我們不指定為2的n次方,HashMap也會把容器的大小設置成最接近設置數的2的n次方,如,設置HashMap的大小為 7 ,則HashMap會將容器大小設置成最接近7的一個2的n次方數,此值為 8 。
HashMap的負載因數表示雜湊表空間的使用程度(或者說是雜湊表空間的利用率)。當負載因數越大,則HashMap的裝載程度就越高。也就是能容納更多的元素,元素多了,發生hash碰撞的幾率就會加大,從而鏈表就會拉長,此時的查詢效率就會降低。當負載因數越小, 則鏈表中的資料量就越稀疏,此時會對空間造成浪費,但是此時查詢效率高。
HashMap不是執行緒安全的,Hashtable則是執行緒安全的。但Hashtable是一個遺留容器,如果我們不需要執行緒同步,則建議使用HashMap,如果需要執行緒同步,則建議使用ConcurrentHashMap。
在多執行緒下操作HashMap,由於存在擴容機制,當HashMap調用resize()進行自動擴容時,可能會導致閉環的發生。
我們在使用HashMap時,最好選擇不可變物件作為key。例如String,Integer等不可變類型作為key是非常明智的。
由於最近工作較忙,也有拖延症發作的問題,所以文章遲遲未能完成發佈,現時完成的文章其實對我而言,也不算太好,但還是打算先發出來讓大家看看,一起學習學習,看有什麼不好的地方,我再慢慢改進,如果此文對你有幫助,請給個贊,謝謝大家。
當前存儲位置即有元素,又不和當前操作元素一致,則證明此位置table[i]已經發生了hash衝突,則通過判斷頭結點是否是treeNode,如果是treeNode則證明此位置的結構是紅黑樹,已紅黑樹的方式新增結點。
如果不是紅黑樹,則證明是單鏈表,將新增結點插入至鏈表的最後位置,隨後判斷當前鏈表長度是否 大於等於 8,是則將當前存儲位置的鏈表轉化為紅黑樹。遍歷過程中如果發現key已經存在,則直接覆蓋value。
插入成功後,判斷當前存儲鍵值對的數量 大於 閾值threshold是則擴容。
hashMap put方法執行流程圖
示例代碼:
調用get(Object key)操作根據鍵key查找對應的key-value鍵值對時,進行了如下操作:
先調用hash(key)方法計算出key的hash值
根據查找的鍵值key的hash值,通過(n - 1) & hash當前元素的hash值 &hash表長度 - 1(實際就是hash值 %hash表長度)計算出存儲位置table[i],判斷存儲位置是否有元素存在 。
如果存儲位置有元素存放,但是頭結點元素不是要查找的元素,則需要遍歷該位置進行查找。
先判斷頭結點是否是treeNode,如果是treeNode則證明此位置的結構是紅黑樹,以紅色樹的方式遍歷查找該結點,沒有則返回null。
如果不是紅黑樹,則證明是單鏈表。遍歷單鏈表,逐一比較鏈表結點,鏈表結點的key的hash值和要獲取的key的hash
值相等,並且 鏈表結點的key本身和要獲取的key相等,則返回該結點,遍歷結束仍未找到對應key的結點,則返回null。
示例代碼:
/** * 返回指定 key 所映射的 value 值 * 或者 返回 null 如果容器裡不存在對應的key * * 更確切地講,如果此映射包含一個滿足 (key==null ? k==null :key.equals(k)) * 的從 k 鍵到 v 值的映射關係, * 則此方法返回 v;否則返回 null。(最多只能有一個這樣的映射關係。) * * 返回 null 值並不一定 表明該映射不包含該鍵的映射關係; * 也可能該映射將該鍵顯示地映射為 null。可使用containsKey操作來區分這兩種情況。 * * @see #put(Object, Object) */ public V get(Object key) { Node調用remove(Object key)操作根據鍵key刪除對應的key-value鍵值對時,進行了如下操作:
先調用hash(key)方法計算出key的hash值
根據查找的鍵值key的hash值,通過(n - 1) & hash當前元素的hash值 &hash表長度 - 1(實際就是hash值 %hash表長度) 計算出存儲位置table[i],判斷存儲位置是否有元素存在 。
如果存儲位置有元素存放,但是頭結點元素不是要刪除的元素,則需要遍歷該 位置進行查找。
先判斷頭結點是否是treeNode,如果是treeNode則證明此位置的結構是紅黑樹,以紅色樹的方式遍歷查找並刪除該結點,沒有則返回null。
如果不是紅黑樹,則證明是單鏈表。遍歷單鏈表,逐一比較鏈表結點,鏈表結點的key的hash值和要獲取的key的hash
值相等,並且鏈表結點的key本身和要獲取的key相等,則此為要刪除的結點,記錄此結點至變數node中,遍歷結束仍未找到對應key的結點,則返回null。
如果找到要刪除的結點node,則判斷是否需要比較value也是否一致,如果value值一致或者不需要比較value
值,則執行刪除結點操作,刪除操作根據不同的情況與結構進行不同的處理。
如果當前結點是樹結點,則證明當前位置的鏈表已變成紅黑樹結構,通過紅黑樹結點的方式刪除對應結點。
如果不是紅黑樹,則證明是單鏈表。如果要刪除的是頭結點,則當前存儲位置table[i]的頭結點指向刪除結點的下一個結點。
如果要刪除的結點不是頭結點,則將要刪除的結點的後繼結點node.next賦值給要刪除結點的前驅結點的next
域,即p.next = node.next;。
7.HashMap當前存儲鍵值對的數量 - 1,並返回刪除結點。
示例代碼:
/** * 從此映射中移除指定鍵的映射關係(如果存在)。 * * @param key 其映射關係要從映射中移除的鍵 * @return 與 key 關聯的舊值;如果 key 沒有任何映射關係,則返回 null。 * (返回 null 還可能表示該映射之前將 null 與 key 關聯。) */ public V remove(Object key) { Node調用replace(K key, V value)操作根據鍵key查找對應的key-value鍵值對,隨後替換對應的值value,進行了如下操作:
先調用hash(key)方法計算出key的hash值
隨後調用getNode方法獲取對應key所映射的value值 。
記錄元素舊值,將新值賦值給元素,返回元素舊值,如果沒有找到元素,則返回null。
示例代碼:
/** * 替換指定 key 所映射的 value 值 * * @param key 對應要替換value值元素的key鍵 * @param value 要替換對應元素的新value值 * @return 返回原本的舊值,如果沒有找到key對應的元素,則返回null * @since 1.8 JDK1.8新增方法 */ public V replace(K key, V value) { Node3.
問 1:您上面說,存放一個元素時,先計算它的hash值確定它的存儲位置,然後再把這個元素放到對應的位置上,那萬一這個位置上面已經有元素存在呢,新增的這個元素怎麼辦?
問 2:hash衝突(或者叫hash碰撞)是什麼?為什麼會出現這種現象,如何解決hash衝突?
答:
hash衝突: 當我們調用put(K key, V value)操作添加key-value鍵值對,這個key-value鍵值對存放在的位置是通過擾動函數(key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16)計算鍵key的hash值。隨後將這個hash值%模上雜湊表Node
例子如下:
元素A的hash值為 9,元素B的hash值為17。雜湊表Node
,元素 B 的存放位置為17 % 8 = 1。兩個元素的存放位置均為table[1],發生了hash衝突。
hash衝突的避免:既然會發生hash衝突,我們就應該想辦法避免此現象的發生,解決這個問題最關鍵就是如果生成元素的hash值。Java是使用“擾動函數”生成元素的hash值。
示例代碼:
/** * JDK 7 的 hash方法 */ final int hash(int h) { h ^= k.hashCode(); h ^= (h >>> 20) ^ (h >>> 12); return h ^ (h >>> 7) ^ (h >>> 4); } /** * JDK 8 的 hash方法 */ static final int hash(Object key) { int h; return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16); }Java7做了4次16位右位移異或混合,Java 8中這步已經簡化了,只做一次16位右位移異或混合,而不是四次,但原理是不變的。例子如下:
擾動函數執行例子
右位移16位,正好是32bit的一半,自己的高半區和低半區做異或,就是為了混合原始雜湊碼的高位和低位元,以此來加大低位的隨機性。而且混合後的低位元摻雜了高位的部分特徵,這樣高位的資訊也被變相保留下來。
上述擾動函數的解釋參考自:JDK 源碼中 HashMap 的 hash 方法原理是什麼?
hash衝突解決:解決hash衝突的方法有很多,常見的有:開發定址法,再散列法,鏈地址法,公共溢位區域法(詳細說明請查看我的文章JAVA基礎-自問自答學hashCode和equals)。HashMap是使用鏈位址法解決hash衝突的,當有衝突元素放進來時,會將此元素插入至此位置鏈表的最後一位,形成單鏈表。但是由於是單鏈表的緣故,每當通過hash % length找到該位置的元素時,均需要從頭遍歷鏈表,通過逐一比較hash值,找到對應元素。如果此位置元素過多,造成鏈表過長,遍歷時間會大大增加,最壞情況下的時間複雜度為O(N),造成查找效率過低。所以當存在位置的鏈表長度 大於等於 8 時,HashMap會將鏈表 轉變為 紅黑樹,紅黑樹最壞情況下的時間複雜度為O(logn)。以此提高查找效率。
4.
問:HashMap的容量為什麼一定要是2的n次方?
答:
因為調用put(K key, V value)操作添加key-value鍵值對時,具體確定此元素的位置是通過hash值%模上雜湊表Node
。
而且當陣列長度為2的n次冪的時候,不同的key算出的index相同的幾率較小,那麼資料在陣列上分佈就比較均勻,也就是說碰撞的幾率小,相對的,查詢的時候就不用遍歷某個位置上的鏈表,這樣查詢效率也就較高了。
例子:
hash & (length-1)運算過程
上圖中,左邊兩組的陣列長度是16(2的4次方),右邊兩組的陣列長度是15。兩組的hash值均為8和9。
當陣列長度是15時,當它們和1110進行&與運算(相同為1,不同為0)時,計算的結果都是1000
,所以他們都會存放在相同的位置table[8]中,這樣就發生了hash衝突,那麼查詢時就要遍歷鏈表,逐一比較hash
值,降低了查詢的效率。
同時,我們可以發現,當陣列長度為15的時候,hash值均會與14(1110)進行&與運算,那麼最後一位永遠是0,而0001,0011,0101,1001,1011,0111,1101這幾個位置永遠都不能存放元素了,空間浪費相當大,更糟的是這種情況中,陣列可以使用的位置比陣列長度小了很多,這意味著進一步增加了碰撞的幾率,減慢了查詢的效率。
所以,HashMap的容量是2的n次方,有利於提高計算元素存放位置時的效率,也降低了hash衝突的幾率。因此,我們使用HashMap存儲大量資料的時候,最好先預先指定容器的大小為2的n次方,即使我們不指定為2的n次方,HashMap
也會把容器的大小設置成最接近設置數的2的n次方,如,設置HashMap的大小為 7 ,則HashMap會將容器大小設置成最接近7的一個2的n次方數,此值為 8 。
示例代碼:
5.
問:HashMap的負載因數是什麼,有什麼作用?
答:負載因數表示雜湊表空間的使用程度(或者說是雜湊表空間的利用率)。
例子如下:
底層雜湊表Node
當負載因數越大,則HashMap的裝載程度就越高。也就是能容納更多的元素,元素多了,發生hash碰撞的幾率就會加大,從而鏈表就會拉長,此時的查詢效率就會降低。
當負載因數越小,則鏈表中的資料量就越稀疏,此時會對空間造成浪費,但是此時查詢效率高。
我們可以在創建HashMap時根據實際需要適當地調整load factor的值;如果程式比較關心空間開銷、記憶體比較緊張,可以適當地增加負載因數;如果程式比較關心時間開銷,記憶體比較寬裕則可以適當的減少負載因數。通常情況下,預設負載因數 (0.75) 在時間和空間成本上尋求一種折衷,程式師無需改變負載因數的值。
因此,如果我們在初始化HashMap時,就預估知道需要裝載key-value鍵值對的容量size,我們可以通過size / load factor計算出我們需要初始化的容量大小initialCapacity,這樣就可以避免HashMap因為存放的元素達到閾值threshold而頻繁調用resize()方法進行擴容。從而保證了較好的性能。
6.
問:您能說說HashMap和HashTable的區別嗎?
答:HashMap和HashTable有如下區別:
1)容器整體結構:
2) 容量設定與擴容機制:
3) 散列分佈方式(計算存儲位置):
HashMap是先將key鍵的hashCode經過擾動函數擾動後得到hash值,然後再利用hash & (length - 1)的方式代替取模,得到元素的存儲位置。
Hashtable則是除留餘數法進行計算存儲位置的(因為其預設容量也不是2的n次方。所以也無法用位運算替代模運算),int index = (hash & 0x7FFFFFFF) % tab.length;。
由於HashMap的容器容量一定是2的n次方,所以能使用hash & (length - 1)的方式代替取模的方式計算元素的位置提高運算效率,但Hashtable的容器容量不一定是2的n次方,所以不能使用此運算方式代替。
4)執行緒安全(最重要):
HashMap不是執行緒安全,如果想執行緒安全,可以通過調用synchronizedMap(Map
Hashtable則是執行緒安全的,每個操作方法前都有synchronized修飾使其同步,但運行效率也不高,所以還是建議使用容器以此達到執行緒安全。
因此,Hashtable是一個遺留容器,如果我們不需要執行緒同步,則建議使用HashMap,如果需要執行緒同步,則建議使用ConcurrentHashMap。
7.
問:您說HashMap不是執行緒安全的,那如果多執行緒下,它是如何處理的?並且什麼情況下會發生執行緒不安全的情況?
答:
HashMap不是執行緒安全的,如果多個執行緒同時對同一個HashMap更改資料的話,會導致資料不一致或者資料污染。如果出現執行緒不安全的操作時,HashMap會盡可能的拋出ConcurrentModificationException防止資料異常,當我們在對一個HashMap進行遍歷時,在遍歷期間,我們是不能對HashMap進行添加,刪除等更改資料的操作的,否則也會拋出ConcurrentModificationException異常,此為fail-fast(快速失敗)機制。從源碼上分析,我們在put,remove
等更改HashMap資料時,都會導致modCount的改變,當expectedModCount != modCount時,則拋出ConcurrentModificationException。如果想要執行緒安全,可以考慮使用ConcurrentHashMap。
而且,在多執行緒下操作HashMap,由於存在擴容機制,當HashMap調用resize()進行自動擴容時,可能會導致閉環的發生。限於篇幅,我暫不帶著大家一起去分析resize()方法導致閉環發生的現象造成原因了,遲點有空我會再補充上去,請見諒,大家可以參考如下文章:
8.
問:我們在使用HashMap時,選取什麼物件作為key鍵比較好,為什麼?
答:
可變對象:指創建後自身狀態能改變的物件。換句話說,可變物件是該物件在創建後它的雜湊值可能被改變。
我們在使用HashMap時,最好選擇不可變物件作為key。例如String,Integer等不可變類型作為key
是非常明智的。如果key物件是可變的,那麼key的雜湊值就可能改變。在HashMap中可變物件作為Key會造成資料丟失。因為我們再進行hash & (length - 1)取模運算計算位置查找對應元素時,位置可能已經發生改變,導致資料丟失。
HashMap是基於Map介面實現的一種鍵-值對
HashMap定位元素位置是通過鍵key經過擾動函數擾動後得到hash值,然後再通過hash & (length - 1)代替取模的方式進行元素定位的。
HashMap是使用鏈位址法解決hash衝突的,當有衝突元素放進來時,會將此元素插入至此位置鏈表的最後一位,形成單鏈表。當存在位置的鏈表長度 大於等於 8 時,HashMap會將鏈表 轉變為 紅黑樹,以此提高查找效率。
HashMap的容量是2的n次方,有利於提高計算元素存放位置時的效率,也降低了hash衝突的幾率。因此,我們使用HashMap。存儲大量資料的時候,最好先預先指定容器的大小為2的n次方,即使我們不指定為2的n次方,HashMap也會把容器的大小設置成最接近設置數的2的n次方,如,設置HashMap的大小為 7 ,則HashMap會將容器大小設置成最接近7的一個2的n次方數,此值為 8 。
HashMap的負載因數表示雜湊表空間的使用程度(或者說是雜湊表空間的利用率)。當負載因數越大,則HashMap的裝載程度就越高。也就是能容納更多的元素,元素多了,發生hash碰撞的幾率就會加大,從而鏈表就會拉長,此時的查詢效率就會降低。當負載因數越小, 則鏈表中的資料量就越稀疏,此時會對空間造成浪費,但是此時查詢效率高。
HashMap不是執行緒安全的,Hashtable則是執行緒安全的。但Hashtable是一個遺留容器,如果我們不需要執行緒同步,則建議使用HashMap,如果需要執行緒同步,則建議使用ConcurrentHashMap。
在多執行緒下操作HashMap,由於存在擴容機制,當HashMap調用resize()進行自動擴容時,可能會導致閉環的發生。
我們在使用HashMap時,最好選擇不可變物件作為key。例如String,Integer等不可變類型作為key是非常明智的。
由於最近工作較忙,也有拖延症發作的問題,所以文章遲遲未能完成發佈,現時完成的文章其實對我而言,也不算太好,但還是打算先發出來讓大家看看,一起學習學習,看有什麼不好的地方,我再慢慢改進,如果此文對你有幫助,請給個贊,謝謝大家。