Java的ConcurrentHashMap原理深入分析
ConcurrentHashMap集合
集合是編程中最常用的數(shù)據(jù)結(jié)構(gòu)。而談到并發(fā),幾乎總是離不開集合這類高級數(shù)據(jù)結(jié)構(gòu)的支持。
比如兩個(gè)線程需要同時(shí)訪問一個(gè)中間臨界區(qū)(Queue),比如常會(huì)用緩存作為外部文件的副本(HashMap)。這篇文章主要分析jdk1.5的3種并發(fā)集合類型(concurrent,copyonright,queue)中的ConcurrentHashMap,讓我們從原理上細(xì)致的了解它們,能夠讓我們在深度項(xiàng)目開發(fā)中獲益非淺。
通過分析Hashtable就知道,synchronized是針對整張Hash表的,即每次鎖住整張表讓線程獨(dú)占,ConcurrentHashMap允許多個(gè)修改操作并發(fā)進(jìn)行,其關(guān)鍵在于使用了鎖分離技術(shù)。它使用了多個(gè)鎖來控制對hash表的不同部分進(jìn)行的修改。ConcurrentHashMap內(nèi)部使用段(Segment)來表示這些不同的部分,每個(gè)段其實(shí)就是一個(gè)小的hash table,它們有自己的鎖。只要多個(gè)修改操作發(fā)生在不同的段上,它們就可以并發(fā)進(jìn)行。
有些方法需要跨段,比如size()和containsValue(),它們可能需要鎖定整個(gè)表而而不僅僅是某個(gè)段,這需要按順序鎖定所有段,操作完畢后,又按順序釋放所有段的鎖。這里“按順序”是很重要的,否則極有可能出現(xiàn)死鎖,在ConcurrentHashMap內(nèi)部,段數(shù)組是final的,并且其成員變量實(shí)際上也是final的,但是,僅僅是將數(shù)組聲明為final的并不保證數(shù)組成員也是final的,這需要實(shí)現(xiàn)上的保證。這可以確保不會(huì)出現(xiàn)死鎖,因?yàn)楂@得鎖的順序是固定的。
一、結(jié)構(gòu)解析
ConcurrentHashMap和Hashtable主要區(qū)別就是圍繞著鎖的粒度以及如何鎖,可以簡單理解成把一個(gè)大的HashTable分解成多個(gè),形成了鎖分離。如圖:
而Hashtable的實(shí)現(xiàn)方式是鎖整個(gè)hash表
二、應(yīng)用場景
當(dāng)有一個(gè)大數(shù)組時(shí)需要在多個(gè)線程共享時(shí)就可以考慮是否把它給分層多個(gè)節(jié)點(diǎn)了,避免大鎖。并可以考慮通過hash算法進(jìn)行一些模塊定位。
其實(shí)不止用于線程,當(dāng)設(shè)計(jì)數(shù)據(jù)表的事務(wù)時(shí)(事務(wù)某種意義上也是同步機(jī)制的體現(xiàn)),可以把一個(gè)表看成一個(gè)需要同步的數(shù)組,如果操作的表數(shù)據(jù)太多時(shí)就可以考慮事務(wù)分離了(這也是為什么要避免大表的出現(xiàn)),比如把數(shù)據(jù)進(jìn)行字段拆分,水平分表等.
三、源碼解讀
ConcurrentHashMap中主要實(shí)體類就是三個(gè):ConcurrentHashMap(整個(gè)Hash表),Segment(桶),HashEntry(節(jié)點(diǎn)),對應(yīng)上面的圖可以看出之間的關(guān)系
/** * The segments, each of which is a specialized hash table */ final Segment<K,V>[] segments;
可以看到除了value不是final的,其它值都是final的,這意味著不能從hash鏈的中間或尾部添加或刪除節(jié)點(diǎn),因?yàn)檫@需要修改next 引用值,所有的節(jié)點(diǎn)的修改只能從頭部開始。對于put操作,可以一律添加到Hash鏈的頭部。但是對于remove操作,可能需要從中間刪除一個(gè)節(jié)點(diǎn),這就需要將要?jiǎng)h除節(jié)點(diǎn)的前面所有節(jié)點(diǎn)整個(gè)復(fù)制一遍,最后一個(gè)節(jié)點(diǎn)指向要?jiǎng)h除結(jié)點(diǎn)的下一個(gè)結(jié)點(diǎn)。
這在講解刪除操作時(shí)還會(huì)詳述。為了確保讀操作能夠看到最新的值,將value設(shè)置成volatile,這避免了加鎖。
為了加快定位段以及段中hash槽的速度,每個(gè)段hash槽的的個(gè)數(shù)都是2^n,這使得通過位運(yùn)算就可以定位段和段中hash槽的位置。當(dāng)并發(fā)級別為默認(rèn)值16時(shí),也就是段的個(gè)數(shù),hash值的高4位決定分配在哪個(gè)段中。但是我們也不要忘記《算法導(dǎo)論》給我們的教訓(xùn):hash槽的的個(gè)數(shù)不應(yīng)該是 2^n,這可能導(dǎo)致hash槽分配不均,這需要對hash值重新再hash一次。(這段似乎有點(diǎn)多余了 )
這是定位段的方法:
final Segment<K,V> segmentFor(int hash) { return segments[(hash >>> segmentShift) & segmentMask]; }
數(shù)據(jù)結(jié)構(gòu)
關(guān)于Hash表的基礎(chǔ)數(shù)據(jù)結(jié)構(gòu),這里不想做過多的探討。Hash表的一個(gè)很重要方面就是如何解決hash沖突,ConcurrentHashMap 和HashMap使用相同的方式,都是將hash值相同的節(jié)點(diǎn)放在一個(gè)hash鏈中。與HashMap不同的是,ConcurrentHashMap使用多個(gè)子Hash表,也就是段(Segment)。下面是ConcurrentHashMap的數(shù)據(jù)成員:
public class ConcurrentHashMap<K, V> extends AbstractMap<K, V> implements ConcurrentMap<K, V>, Serializable { /** * Mask value for indexing into segments. The upper bits of a * key's hash code are used to choose the segment. */ final int segmentMask; /** * Shift value for indexing within segments. */ final int segmentShift; /** * The segments, each of which is a specialized hash table */ final Segment<K,V>[] segments; }
所有的成員都是final的,其中segmentMask和segmentShift主要是為了定位段,參見上面的segmentFor方法。
每個(gè)Segment相當(dāng)于一個(gè)子Hash表,它的數(shù)據(jù)成員如下:
static final class Segment<K,V> extends ReentrantLock implements Serializable { private static final long serialVersionUID = 2249069246763182397L; /** * The number of elements in this segment's region. */ transient volatile int count; /** * Number of updates that alter the size of the table. This is * used during bulk-read methods to make sure they see a * consistent snapshot: If modCounts change during a traversal * of segments computing size or checking containsValue, then * we might have an inconsistent view of state so (usually) * must retry. */ transient int modCount; /** * The table is rehashed when its size exceeds this threshold. * (The value of this field is always <tt>(int)(capacity * * loadFactor)</tt>.) */ transient int threshold; /** * The per-segment table. */ transient volatile HashEntry<K,V>[] table; /** * The load factor for the hash table. Even though this value * is same for all segments, it is replicated to avoid needing * links to outer object. * @serial */ final float loadFactor; }
count用來統(tǒng)計(jì)該段數(shù)據(jù)的個(gè)數(shù),它是volatile,它用來協(xié)調(diào)修改和讀取操作,以保證讀取操作能夠讀取到幾乎最新的修改。
協(xié)調(diào)方式是這樣的,每次修改操作做了結(jié)構(gòu)上的改變,如增加/刪除節(jié)點(diǎn)(修改節(jié)點(diǎn)的值不算結(jié)構(gòu)上的改變),都要寫count值,每次讀取操作開始都要讀取count的值。
這利用了 Java 5中對volatile語義的增強(qiáng),對同一個(gè)volatile變量的寫和讀存在happens-before關(guān)系。
- modCount統(tǒng)計(jì)段結(jié)構(gòu)改變的次數(shù),主要是為了檢測對多個(gè)段進(jìn)行遍歷過程中某個(gè)段是否發(fā)生改變,在講述跨段操作時(shí)會(huì)還會(huì)詳述。
- threashold用來表示需要進(jìn)行rehash的界限值。
- table數(shù)組存儲(chǔ)段中節(jié)點(diǎn),每個(gè)數(shù)組元素是個(gè)hash鏈,用HashEntry表示。
- table也是volatile,這使得能夠讀取到最新的 table值而不需要同步。
- loadFactor表示負(fù)載因子。
先來看下刪除操作remove(key)。
public V remove(Object key) { hash = hash(key.hashCode()); return segmentFor(hash).remove(key, hash, null); } //整個(gè)操作是先定位到段,然后委托給段的remove操作。當(dāng)多個(gè)刪除操作并發(fā)進(jìn)行時(shí),只要它們所在的段不相同,它們就可以同時(shí)進(jìn)行。下面是Segment的remove方法實(shí)現(xiàn): V remove(Object key, int hash, Object value) { lock(); try { int c = count - 1; HashEntry<K,V>[] tab = table; int index = hash & (tab.length - 1); HashEntry<K,V> first = tab[index]; HashEntry<K,V> e = first; while (e != null && (e.hash != hash || !key.equals(e.key))) e = e.next; V oldValue = null; if (e != null) { V v = e.value; if (value == null || value.equals(v)) { oldValue = v; // All entries following removed node can stay // in list, but all preceding ones need to be // cloned. ++modCount; HashEntry<K,V> newFirst = e.next; *for (HashEntry<K,V> p = first; p != e; p = p.next) *newFirst = new HashEntry<K,V>(p.key, p.hash, newFirst, p.value); tab[index] = newFirst; count = c; // write-volatile } } return oldValue; } finally { unlock(); } }
整個(gè)操作是在持有段鎖的情況下執(zhí)行的,空白行之前的行主要是定位到要?jiǎng)h除的節(jié)點(diǎn)e。接下來,如果不存在這個(gè)節(jié)點(diǎn)就直接返回null,否則就要將e前面的結(jié)點(diǎn)復(fù)制一遍,尾結(jié)點(diǎn)指向e的下一個(gè)結(jié)點(diǎn)。e后面的結(jié)點(diǎn)不需要復(fù)制,它們可以重用。
中間那個(gè)for循環(huán)是做什么用的呢?(*號(hào)標(biāo)記)從代碼來看,就是將定位之后的所有entry克隆并拼回前面去,但有必要嗎?每次刪除一個(gè)元素就要將那之前的元素克隆一遍?這點(diǎn)其實(shí)是由entry的不變性來決定的,仔細(xì)觀察entry定義,發(fā)現(xiàn)除了value,其他所有屬性都是用final來修飾的,這意味著在第一次設(shè)置了next域之后便不能再改變它,取而代之的是將它之前的節(jié)點(diǎn)全都克隆一次。至于entry為什么要設(shè)置為不變性,這跟不變性的訪問不需要同步從而節(jié)省時(shí)間有關(guān)
下面是個(gè)示意圖
刪除元素之前:
刪除元素3之后:
第二個(gè)圖其實(shí)有點(diǎn)問題,復(fù)制的結(jié)點(diǎn)中應(yīng)該是值為2的結(jié)點(diǎn)在前面,值為1的結(jié)點(diǎn)在后面,也就是剛好和原來結(jié)點(diǎn)順序相反,還好這不影響我們的討論。
整個(gè)remove實(shí)現(xiàn)并不復(fù)雜,但是需要注意如下幾點(diǎn)。
- 第一,當(dāng)要?jiǎng)h除的結(jié)點(diǎn)存在時(shí),刪除的最后一步操作要將count的值減一。這必須是最后一步操作,否則讀取操作可能看不到之前對段所做的結(jié)構(gòu)性修改。
- 第二,remove執(zhí)行的開始就將table賦給一個(gè)局部變量tab,這是因?yàn)閠able是 volatile變量,讀寫volatile變量的開銷很大。編譯器也不能對volatile變量的讀寫做任何優(yōu)化,直接多次訪問非volatile實(shí)例變量沒有多大影響,編譯器會(huì)做相應(yīng)優(yōu)化。
接下來看put操作,同樣地put操作也是委托給段的put方法。
下面是段的put方法:
V put(K key, int hash, V value, boolean onlyIfAbsent) { lock(); try { int c = count; if (c++ > threshold) // ensure capacity rehash(); HashEntry<K,V>[] tab = table; int index = hash & (tab.length - 1); HashEntry<K,V> first = tab[index]; HashEntry<K,V> e = first; while (e != null && (e.hash != hash || !key.equals(e.key))) e = e.next; V oldValue; if (e != null) { oldValue = e.value; if (!onlyIfAbsent) e.value = value; } else { oldValue = null; ++modCount; tab[index] = new HashEntry<K,V>(key, hash, first, value); count = c; // write-volatile } return oldValue; } finally { unlock(); } }
該方法也是在持有段鎖(鎖定整個(gè)segment)的情況下執(zhí)行的,這當(dāng)然是為了并發(fā)的安全,修改數(shù)據(jù)是不能并發(fā)進(jìn)行的,必須得有個(gè)判斷是否超限的語句以確保容量不足時(shí)能夠rehash。
接著是找是否存在同樣一個(gè)key的結(jié)點(diǎn),如果存在就直接替換這個(gè)結(jié)點(diǎn)的值。
否則創(chuàng)建一個(gè)新的結(jié)點(diǎn)并添加到hash鏈的頭部,這時(shí)一定要修改modCount和count的值,同樣修改count的值一定要放在最后一步。
put方法調(diào)用了rehash方法,reash方法實(shí)現(xiàn)得也很精巧,主要利用了table的大小為2^n,這里就不介紹了。
而比較難懂的是這句int index = hash & (tab.length - 1),原來segment里面才是真正的hashtable,即每個(gè)segment是一個(gè)傳統(tǒng)意義上的hashtable,如上圖,從兩者的結(jié)構(gòu)就可以看出區(qū)別,這里就是找出需要的entry在table的哪一個(gè)位置,之后得到的entry就是這個(gè)鏈的第一個(gè)節(jié)點(diǎn),如果e!=null,說明找到了,這是就要替換節(jié)點(diǎn)的值(onlyIfAbsent == false),否則,我們需要new一個(gè)entry,它的后繼是first,而讓tab[index]指向它,什么意思呢?
實(shí)際上就是將這個(gè)新entry插入到鏈頭,剩下的就非常容易理解了
修改操作還有putAll和replace。putAll就是多次調(diào)用put方法,沒什么好說的。replace甚至不用做結(jié)構(gòu)上的更改,實(shí)現(xiàn)要比put和delete要簡單得多
理解了put和delete,理解replace就不在話下了,這里也不介紹了。
獲取操作
首先看下get操作,同樣ConcurrentHashMap的get操作是直接委托給Segment的get方法,直接看Segment的get方法:
V get(Object key, int hash) { if (count != 0) { // read-volatile 當(dāng)前桶的數(shù)據(jù)個(gè)數(shù)是否為0 HashEntry<K,V> e = getFirst(hash); 得到頭節(jié)點(diǎn) while (e != null) { if (e.hash == hash && key.equals(e.key)) { V v = e.value; if (v != null) return v; return readValueUnderLock(e); // recheck } e = e.next; } } return null; }
get操作不需要鎖。第一步是訪問count變量,這是一個(gè)volatile變量,由于所有的修改操作在進(jìn)行結(jié)構(gòu)修改時(shí)都會(huì)在最后一步寫count 變量,通過這種機(jī)制保證get操作能夠得到幾乎最新的結(jié)構(gòu)更新。
對于非結(jié)構(gòu)更新,也就是結(jié)點(diǎn)值的改變,由于HashEntry的value變量是 volatile的,也能保證讀取到最新的值。接下來就是根據(jù)hash和key對hash鏈進(jìn)行遍歷找到要獲取的結(jié)點(diǎn),如果沒有找到,直接訪回null。
對hash鏈進(jìn)行遍歷不需要加鎖的原因在于鏈指針next是final的。
但是頭指針卻不是final的,這是通過getFirst(hash)方法返回,也就是存在 table數(shù)組中的值。
這使得getFirst(hash)可能返回過時(shí)的頭結(jié)點(diǎn),例如,當(dāng)執(zhí)行g(shù)et方法時(shí),剛執(zhí)行完getFirst(hash)之后,另一個(gè)線程執(zhí)行了刪除操作并更新頭結(jié)點(diǎn)
這就導(dǎo)致get方法中返回的頭結(jié)點(diǎn)不是最新的。這是可以允許,通過對count變量的協(xié)調(diào)機(jī)制,get能讀取到幾乎最新的數(shù)據(jù),雖然可能不是最新的。
要得到最新的數(shù)據(jù),只有采用完全的同步。
最后,如果找到了所求的結(jié)點(diǎn),判斷它的值如果非空就直接返回,否則在有鎖的狀態(tài)下再讀一次。
這似乎有些費(fèi)解,理論上結(jié)點(diǎn)的值不可能為空,這是因?yàn)?nbsp;put的時(shí)候就進(jìn)行了判斷,如果為空就要拋NullPointerException。
空值的唯一源頭就是HashEntry中的默認(rèn)值,因?yàn)?nbsp;HashEntry中的value不是final的,非同步讀取有可能讀取到空值。
仔細(xì)看下put操作的語句:tab[index] = new HashEntry<K,V>(key, hash, first, value)
在這條語句中,HashEntry構(gòu)造函數(shù)中對value的賦值以及對tab[index]的賦值可能被重新排序,這就可能導(dǎo)致結(jié)點(diǎn)的值為空。
這里當(dāng)v為空時(shí),可能是一個(gè)線程正在改變節(jié)點(diǎn),而之前的get操作都未進(jìn)行鎖定,根據(jù)bernstein條件,讀后寫或?qū)懞笞x都會(huì)引起數(shù)據(jù)的不一致
所以這里要對這個(gè)e重新上鎖再讀一遍,以保證得到的是正確值。
V readValueUnderLock(HashEntry<K,V> e) { lock(); try { return e.value; } finally { unlock(); } }
另一個(gè)操作是containsKey,這個(gè)實(shí)現(xiàn)就要簡單得多了,因?yàn)樗恍枰x取值:
boolean containsKey(Object key, int hash) { if (count != 0) { // read-volatile HashEntry<K,V> e = getFirst(hash); while (e != null) { if (e.hash == hash && key.equals(e.key)) return true; e = e.next; } } return false; }
到此這篇關(guān)于Java的ConcurrentHashMap原理深入分析的文章就介紹到這了,更多相關(guān)Java的ConcurrentHashMap內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Java?ConcurrentHashMap實(shí)現(xiàn)線程安全的代碼示例
- Java面試常考之ConcurrentHashMap多線程擴(kuò)容機(jī)制詳解
- 淺析Java中ConcurrentHashMap的存儲(chǔ)流程
- Java源碼重讀之ConcurrentHashMap詳解
- Java?ConcurrentHashMap的源碼分析詳解
- Java集合ConcurrentHashMap詳解
- java并發(fā)容器ConcurrentHashMap深入分析
- Java HashTable的原理與實(shí)現(xiàn)
- Java中HashMap和Hashtable的區(qū)別小結(jié)
- 一文帶你全面了解Java?Hashtable
- Java中Hashtable集合的常用方法詳解
- 詳解Java中的HashTable
- Java容器HashMap與HashTable詳解
- java HashMap和HashTable的區(qū)別詳解
- java面試題——詳解HashMap和Hashtable 的區(qū)別
- Java中HashMap和Hashtable的區(qū)別淺析
- Java中ConcurrentHashMap和Hashtable的區(qū)別
相關(guān)文章
啟動(dòng)SpringBoot報(bào)錯(cuò)Input length = 1問題及解決
這篇文章主要介紹了啟動(dòng)SpringBoot報(bào)錯(cuò)Input length = 1問題及解決方案,具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-05-05關(guān)于idea2020.3升級lombok不能使用的問題
這篇文章主要介紹了關(guān)于idea2020.3升級lombok不能使用的問題,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-12-12詳解手把手Maven搭建SpringMVC+Spring+MyBatis框架(超級詳細(xì)版)
本篇文章主要介紹了手把手Maven搭建SpringMVC+Spring+MyBatis框架(超級詳細(xì)版),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-12-12Netty分布式從recycler對象回收站獲取對象過程剖析
這篇文章主要為大家介紹了Netty分布式從recycler獲取對象的過程源碼剖析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-03-03