什么是Java布隆過濾器?如何使用你知道嗎
Redis緩存穿透可以通過布隆過濾器進(jìn)行解決,那么什么是布隆過濾器呢?請往下看。
通常你判斷某個(gè)元素是否存在用的是什么?
很多人想到的是HashMap。
確實(shí)可以將值映射到 HashMap 的 Key,然后可以在 O(1) 的時(shí)間復(fù)雜度內(nèi)返回結(jié)果,效率奇高。但是 HashMap 的實(shí)現(xiàn)也有缺點(diǎn),例如存儲容量占比高,考慮到負(fù)載因子的存在,通??臻g是不能被用滿的,而一旦你的值很多例如上億的時(shí)候,那 HashMap 占據(jù)的內(nèi)存大小就變得很可觀了。
一、布隆過濾器簡介
布隆過濾器(英語:Bloom Filter)是1970年由布隆提出的。它實(shí)際上是一個(gè)很長的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)。布隆過濾器可以用于檢索一個(gè)元素是否在一個(gè)集合中
如果想判斷一個(gè)元素是不是在一個(gè)集合里,一般想到的是將集合中所有元素保存起來,然后通過比較確定。鏈表、樹、散列表(又叫哈希表,Hash table)等等數(shù)據(jù)結(jié)構(gòu)都是這種思路。但是隨著集合中元素的增加,我們需要的存儲空間越來越大。同時(shí)檢索速度也越來越慢,上述三種結(jié)構(gòu)的檢索時(shí)間復(fù)雜度分別為O(n),O(log n),O(1)。
布隆過濾器的原理是,當(dāng)一個(gè)元素被加入集合時(shí),通過K個(gè)散列函數(shù)將這個(gè)元素映射成一個(gè)位數(shù)組中的K個(gè)點(diǎn),把它們置為1。檢索時(shí),我們只要看看這些點(diǎn)是不是都是1就(大約)知道集合中有沒有它了:如果這些點(diǎn)有任何一個(gè)0,則被檢元素一定不在;如果都是1,則被檢元素很可能在。這就是布隆過濾器的基本思想。 –引自《維基百科,自由的百科全書》
本質(zhì)上布隆過濾器是一種數(shù)據(jù)結(jié)構(gòu),比較巧妙的概率型數(shù)據(jù)結(jié)構(gòu)(probabilistic data structure)高效地插入和查詢,可以用來告訴你 “某樣?xùn)|西一定不存在或者可能存在”。相比于傳統(tǒng)的 List、Set、Map 等數(shù)據(jù)結(jié)構(gòu),它更高效、占用空間更少,但是缺點(diǎn)是其返回的結(jié)果是概率性的,而不是確切的。
當(dāng)你往簡單數(shù)組或列表中插入新數(shù)據(jù)時(shí),將不會根據(jù)插入項(xiàng)的值來確定該插入項(xiàng)的索引值。這意味著新插入項(xiàng)的索引值與數(shù)據(jù)值之間沒有直接關(guān)系。這樣的話,當(dāng)你需要在數(shù)組或列表中搜索相應(yīng)值的時(shí)候,你必須遍歷已有的集合。若集合中存在大量的數(shù)據(jù),就會影響數(shù)據(jù)查找的效率。
針對這個(gè)問題,你可以考慮使用哈希表。利用哈希表你可以通過對 “值” 進(jìn)行哈希處理來獲得該值對應(yīng)的鍵或索引值,然后把該值存放到列表中對應(yīng)的索引位置。這意味著索引值是由插入項(xiàng)的值所確定的,當(dāng)你需要判斷列表中是否存在該值時(shí),只需要對值進(jìn)行哈希處理并在相應(yīng)的索引位置進(jìn)行搜索即可,這時(shí)的搜索速度是非??斓摹?/p>
二、布隆過濾器的結(jié)構(gòu)
根據(jù)定義,布隆過濾器可以檢查值是 “可能在集合中” 還是 “絕對不在集合中”。“可能” 表示有一定的概率,也就是說可能存在一定為誤判率。那為什么會存在誤判呢?下面我們來分析一下具體的原因。
布隆過濾器(Bloom Filter)本質(zhì)上是由長度為 m 的位向量或位列表(僅包含 0 或 1 位值的列表)組成,最初所有的值均設(shè)置為 0,如下圖所示。
為了將數(shù)據(jù)項(xiàng)添加到布隆過濾器中,我們會提供 K 個(gè)不同的哈希函數(shù),并將結(jié)果位置上對應(yīng)位的值置為 “1”。在前面所提到的哈希表中,我們使用的是單個(gè)哈希函數(shù),因此只能輸出單個(gè)索引值。而對于布隆過濾器來說,我們將使用多個(gè)哈希函數(shù),這將會產(chǎn)生多個(gè)索引值。
如上圖所示,當(dāng)輸入 “semlinker” 時(shí),預(yù)設(shè)的 3 個(gè)哈希函數(shù)將輸出 2、4、6,我們把相應(yīng)位置 1。假設(shè)另一個(gè)輸入 ”kakuqo“,哈希函數(shù)輸出 3、4 和 7。你可能已經(jīng)注意到,索引位 4 已經(jīng)被先前的 “semlinker” 標(biāo)記了。此時(shí),我們已經(jīng)使用 “semlinker” 和 ”kakuqo“ 兩個(gè)輸入值,填充了位向量。當(dāng)前位向量的標(biāo)記狀態(tài)為:
當(dāng)對值進(jìn)行搜索時(shí),與哈希表類似,我們將使用 3 個(gè)哈希函數(shù)對 ”搜索的值“ 進(jìn)行哈希運(yùn)算,并查看其生成的索引值。假設(shè),當(dāng)我們搜索 ”fullstack“ 時(shí),3 個(gè)哈希函數(shù)輸出的 3 個(gè)索引值分別是 2、3 和 7:
從上圖可以看出,相應(yīng)的索引位都被置為 1,這意味著我們可以說 ”fullstack“ 可能已經(jīng)插入到集合中。事實(shí)上這是誤報(bào)的情形,產(chǎn)生的原因是由于哈希碰撞導(dǎo)致的巧合而將不同的元素存儲在相同的比特位上。
那么我們?nèi)绾芜x擇哈希函數(shù)個(gè)數(shù)和布隆過濾器長度很顯然,過小的布隆過濾器很快所有的bit位均為1,那么查詢?nèi)魏沃刀紩祷?ldquo;可能存在”,起不到過濾的目的了。布隆過濾器的長度會直接影響誤報(bào)率,布隆過濾器越長其誤報(bào)率越小。
另外,哈希函數(shù)的個(gè)數(shù)也需要權(quán)衡,個(gè)數(shù)越多則布隆過濾器 bit 位置位 1 的速度越快,且布隆過濾器的效率越低;但是如果太少的話,那我們的誤報(bào)率會變高。
如何選擇適合業(yè)務(wù)的 k 和 m 值呢,幸運(yùn)的是,布隆過濾器有一個(gè)可預(yù)測的誤判率(FPP):
n 是已經(jīng)添加元素的數(shù)量;
k 哈希的次數(shù);
m 布隆過濾器的長度(如比特?cái)?shù)組的大?。?;
極端情況下,當(dāng)布隆過濾器沒有空閑空間時(shí)(滿),每一次查詢都會返回 true 。這也就意味著 m 的選擇取決于期望預(yù)計(jì)添加元素的數(shù)量 n ,并且 m 需要遠(yuǎn)遠(yuǎn)大于 n 。
實(shí)際情況中,布隆過濾器的長度 m 可以根據(jù)給定的誤判率(FFP)的和期望添加的元素個(gè)數(shù) n 的通過如下公式計(jì)算:
了解完上述的內(nèi)容之后,我們可以得出一個(gè)結(jié)論:當(dāng)我們搜索一個(gè)值的時(shí)候,若該值經(jīng)過 K 個(gè)哈希函數(shù)運(yùn)算后的任何一個(gè)索引位為 ”0“,那么該值肯定不在集合中。但如果所有哈希索引值均為 ”1“,則只能說該搜索的值可能存在集合中。
三、布隆過濾器應(yīng)用
在實(shí)際工作中,布隆過濾器常見的應(yīng)用場景如下:
- 網(wǎng)頁爬蟲對 URL 去重,避免爬取相同的 URL 地址;
- 反垃圾郵件,從數(shù)十億個(gè)垃圾郵件列表中判斷某郵箱是否垃圾郵箱;
- Google Chrome 使用布隆過濾器識別惡意 URL;
- Medium 使用布隆過濾器避免推薦給用戶已經(jīng)讀過的文章;
- Google BigTable,Apache HBbase 和 Apache Cassandra 使用布隆過濾器減少對不存在的行和列的查找。
除了上述的應(yīng)用場景之外,布隆過濾器還有一個(gè)應(yīng)用場景就是解決緩存穿透的問題。所謂的緩存穿透就是服務(wù)調(diào)用方每次都是查詢不在緩存中的數(shù)據(jù),這樣每次服務(wù)調(diào)用都會到數(shù)據(jù)庫中進(jìn)行查詢,如果這類請求比較多的話,就會導(dǎo)致數(shù)據(jù)庫壓力增大,這樣緩存就失去了意義。
利用布隆過濾器我們可以預(yù)先把數(shù)據(jù)查詢的主鍵,比如用戶 ID 或文章 ID 緩存到過濾器中。當(dāng)根據(jù) ID 進(jìn)行數(shù)據(jù)查詢的時(shí)候,我們先判斷該 ID 是否存在,若存在的話,則進(jìn)行下一步處理。若不存在的話,直接返回,這樣就不會觸發(fā)后續(xù)的數(shù)據(jù)庫查詢。需要注意的是緩存穿透不能完全解決,我們只能將其控制在一個(gè)可以容忍的范圍內(nèi)。
四、布隆過濾器的優(yōu)缺點(diǎn)
優(yōu)點(diǎn)
相比于其它的數(shù)據(jù)結(jié)構(gòu),布隆過濾器在空間和時(shí)間方面都有巨大的優(yōu)勢。布隆過濾器存儲空間和插入/查詢時(shí)間都是常數(shù)(O(k))。另外,散列函數(shù)相互之間沒有關(guān)系,方便由硬件并行實(shí)現(xiàn)。布隆過濾器不需要存儲元素本身,在某些對保密要求非常嚴(yán)格的場合有優(yōu)勢。
布隆過濾器可以表示全集,其它任何數(shù)據(jù)結(jié)構(gòu)都不能;
k和m相同,使用同一組散列函數(shù)的兩個(gè)布隆過濾器的交并運(yùn)算可以使用位操作進(jìn)行。
缺點(diǎn)
但是布隆過濾器的缺點(diǎn)和優(yōu)點(diǎn)一樣明顯。誤算率是其中之一。隨著存入的元素?cái)?shù)量增加,誤算率隨之增加。但是如果元素?cái)?shù)量太少,則使用散列表足矣。
另外,一般情況下不能從布隆過濾器中刪除元素。我們很容易想到把位數(shù)組變成整數(shù)數(shù)組,每插入一個(gè)元素相應(yīng)的計(jì)數(shù)器加1, 這樣刪除元素時(shí)將計(jì)數(shù)器減掉就可以了。然而要保證安全地刪除元素并非如此簡單。首先我們必須保證刪除的元素的確在布隆過濾器里面。這一點(diǎn)單憑這個(gè)過濾器是無法保證的。另外計(jì)數(shù)器回繞也會造成問題。
在降低誤算率方面,有不少工作,使得出現(xiàn)了很多布隆過濾器的變種。
五、布隆過濾器實(shí)戰(zhàn)
布隆過濾器有很多實(shí)現(xiàn)和優(yōu)化,由 Google 開發(fā)著名的 Guava 庫就提供了布隆過濾器(Bloom Filter)的實(shí)現(xiàn)。在基于 Maven 的 Java 項(xiàng)目中要使用 Guava 提供的布隆過濾器,只需要引入以下坐標(biāo):
<dependency> <groupId>com.google.guava</groupId> <artifactId>guava</artifactId> <version>28.0-jre</version> </dependency>
復(fù)制代碼在導(dǎo)入 Guava 庫后,我們新建一個(gè) BloomFilterDemo 類,在 main 方法中我們通過 BloomFilter.create 方法來創(chuàng)建一個(gè)布隆過濾器,接著我們初始化 1 百萬條數(shù)據(jù)到過濾器中,然后在原有的基礎(chǔ)上增加 10000 條數(shù)據(jù)并判斷這些數(shù)據(jù)是否存在布隆過濾器中:
import com.google.common.base.Charsets; import com.google.common.hash.BloomFilter; import com.google.common.hash.Funnels; public class BloomFilterDemo { public static void main(String[] args) { int total = 1000000; // 總數(shù)量 BloomFilter<CharSequence> bf = BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), total); // 初始化 1000000 條數(shù)據(jù)到過濾器中 for (int i = 0; i < total; i++) { bf.put("" + i); } // 判斷值是否存在過濾器中 int count = 0; for (int i = 0; i < total + 10000; i++) { if (bf.mightContain("" + i)) { count++; } } System.out.println("已匹配數(shù)量 " + count); } }
當(dāng)以上代碼運(yùn)行后,控制臺會輸出以下結(jié)果:
已匹配數(shù)量 1000309
很明顯以上的輸出結(jié)果已經(jīng)出現(xiàn)了誤報(bào),因?yàn)橄啾阮A(yù)期的結(jié)果多了 309 個(gè)元素,誤判率為:
309/(1000000 + 10000) * 100 ≈ 0.030594059405940593
如果要提高匹配精度的話,我們可以在創(chuàng)建布隆過濾器的時(shí)候設(shè)置誤判率 fpp:
BloomFilter<CharSequence> bf = BloomFilter.create(
Funnels.stringFunnel(Charsets.UTF_8), total, 0.0002
);
在 BloomFilter 內(nèi)部,誤判率 fpp 的默認(rèn)值是 0.03:
// com/google/common/hash/BloomFilter.classpublic static <T> BloomFilter<T> create(Funnel<? super T> funnel, long expectedInsertions) { return create(funnel, expectedInsertions, 0.03D);}
在重新設(shè)置誤判率為 0.0002 之后,我們重新運(yùn)行程序,這時(shí)控制臺會輸出以下結(jié)果:
已匹配數(shù)量 1000003
復(fù)制代碼通過觀察以上的結(jié)果,可知誤判率 fpp 的值越小,匹配的精度越高。當(dāng)減少誤判率 fpp 的值,需要的存儲空間也越大,所以在實(shí)際使用過程中需要在誤判率和存儲空間之間做個(gè)權(quán)衡。
六、總結(jié)
本文主要介紹的布隆過濾器的概念和常見的應(yīng)用場合,在實(shí)戰(zhàn)部分我們演示了 Google 著名的 Guava 庫所提供布隆過濾器(Bloom Filter)的基本使用,同時(shí)我們也介紹了布隆過濾器出現(xiàn)誤報(bào)的原因及如何提高判斷準(zhǔn)確性。最后為了便于大家理解布隆過濾器,我們介紹了一個(gè)簡易版的布隆過濾器 SimpleBloomFilter。
本篇文章就到這里了,希望能夠給你帶來幫助,也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!
相關(guān)文章
Java實(shí)戰(zhàn)之基于I/O流設(shè)計(jì)的圖書管理系統(tǒng)
這篇文章主要介紹了Java實(shí)戰(zhàn)之基于I/O流設(shè)計(jì)的圖書館管理系統(tǒng),文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)java的小伙伴們有非常好的幫助,需要的朋友可以參考下2021-04-04javacv開發(fā)詳解之調(diào)用本機(jī)攝像頭視頻
這篇文章主要介紹了javacv開發(fā)詳解之調(diào)用本機(jī)攝像頭視頻,對javacv感興趣的同學(xué),可以參考下2021-04-04idea中提示Class 'xxx' is never us
這篇文章主要介紹了idea中提示Class 'xxx' is never used的解決方案,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-01-01解決IDEA項(xiàng)目external libraries依賴包消失的問題
有時(shí)候電腦重啟后,再打開IDEA上的項(xiàng)目時(shí)會出現(xiàn)external libraries目錄下的依賴包都消失了的情況,只剩下了一個(gè)JDK的包,本文給大家介紹了解決IDEA項(xiàng)目external libraries依賴包消失的辦法,需要的朋友可以參考下2024-02-02