快捷導(dǎo)航

什么是Java布隆過(guò)濾器?如何使用你知道嗎

更新時(shí)間：2022年02月09日 16:45:44 作者：Java技術(shù)債務(wù)

這篇文章主要為大家詳細(xì)介紹了Java布隆過(guò)濾器，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助

確實(shí)可以將值映射到 HashMap 的 Key，然后可以在 O(1) 的時(shí)間復(fù)雜度內(nèi)返回結(jié)果，效率奇高。但是 HashMap 的實(shí)現(xiàn)也有缺點(diǎn)，例如存儲(chǔ)容量占比高，考慮到負(fù)載因子的存在，通?？臻g是不能被用滿的，而一旦你的值很多例如上億的時(shí)候，那 HashMap 占據(jù)的內(nèi)存大小就變得很可觀了。

一、布隆過(guò)濾器簡(jiǎn)介

布隆過(guò)濾器（英語(yǔ)：Bloom Filter）是1970年由布隆提出的。它實(shí)際上是一個(gè)很長(zhǎng)的二進(jìn)制向量和一系列隨機(jī)映射函數(shù)。布隆過(guò)濾器可以用于檢索一個(gè)元素是否在一個(gè)集合中

如果想判斷一個(gè)元素是不是在一個(gè)集合里，一般想到的是將集合中所有元素保存起來(lái)，然后通過(guò)比較確定。鏈表、樹(shù)、散列表（又叫哈希表，Hash table）等等數(shù)據(jù)結(jié)構(gòu)都是這種思路。但是隨著集合中元素的增加，我們需要的存儲(chǔ)空間越來(lái)越大。同時(shí)檢索速度也越來(lái)越慢，上述三種結(jié)構(gòu)的檢索時(shí)間復(fù)雜度分別為O(n),O(log n),O(1)。

布隆過(guò)濾器的原理是，當(dāng)一個(gè)元素被加入集合時(shí)，通過(guò)K個(gè)散列函數(shù)將這個(gè)元素映射成一個(gè)位數(shù)組中的K個(gè)點(diǎn)，把它們置為1。檢索時(shí)，我們只要看看這些點(diǎn)是不是都是1就（大約）知道集合中有沒(méi)有它了：如果這些點(diǎn)有任何一個(gè)0，則被檢元素一定不在；如果都是1，則被檢元素很可能在。這就是布隆過(guò)濾器的基本思想。 –引自《維基百科，自由的百科全書(shū)》

本質(zhì)上布隆過(guò)濾器是一種數(shù)據(jù)結(jié)構(gòu)，比較巧妙的概率型數(shù)據(jù)結(jié)構(gòu)（probabilistic data structure）高效地插入和查詢(xún)，可以用來(lái)告訴你 “某樣?xùn)|西一定不存在或者可能存在”。相比于傳統(tǒng)的 List、Set、Map 等數(shù)據(jù)結(jié)構(gòu)，它更高效、占用空間更少，但是缺點(diǎn)是其返回的結(jié)果是概率性的，而不是確切的。

當(dāng)你往簡(jiǎn)單數(shù)組或列表中插入新數(shù)據(jù)時(shí)，將不會(huì)根據(jù)插入項(xiàng)的值來(lái)確定該插入項(xiàng)的索引值。這意味著新插入項(xiàng)的索引值與數(shù)據(jù)值之間沒(méi)有直接關(guān)系。這樣的話，當(dāng)你需要在數(shù)組或列表中搜索相應(yīng)值的時(shí)候，你必須遍歷已有的集合。若集合中存在大量的數(shù)據(jù)，就會(huì)影響數(shù)據(jù)查找的效率。

針對(duì)這個(gè)問(wèn)題，你可以考慮使用哈希表。利用哈希表你可以通過(guò)對(duì) “值” 進(jìn)行哈希處理來(lái)獲得該值對(duì)應(yīng)的鍵或索引值，然后把該值存放到列表中對(duì)應(yīng)的索引位置。這意味著索引值是由插入項(xiàng)的值所確定的，當(dāng)你需要判斷列表中是否存在該值時(shí)，只需要對(duì)值進(jìn)行哈希處理并在相應(yīng)的索引位置進(jìn)行搜索即可，這時(shí)的搜索速度是非?？斓摹?/p>

二、布隆過(guò)濾器的結(jié)構(gòu)

根據(jù)定義，布隆過(guò)濾器可以檢查值是 “可能在集合中” 還是 “絕對(duì)不在集合中”。“可能” 表示有一定的概率，也就是說(shuō)可能存在一定為誤判率。那為什么會(huì)存在誤判呢？下面我們來(lái)分析一下具體的原因。

布隆過(guò)濾器（Bloom Filter）本質(zhì)上是由長(zhǎng)度為 m 的位向量或位列表（僅包含 0 或 1 位值的列表）組成，最初所有的值均設(shè)置為 0，如下圖所示。

為了將數(shù)據(jù)項(xiàng)添加到布隆過(guò)濾器中，我們會(huì)提供 K 個(gè)不同的哈希函數(shù)，并將結(jié)果位置上對(duì)應(yīng)位的值置為 “1”。在前面所提到的哈希表中，我們使用的是單個(gè)哈希函數(shù)，因此只能輸出單個(gè)索引值。而對(duì)于布隆過(guò)濾器來(lái)說(shuō)，我們將使用多個(gè)哈希函數(shù)，這將會(huì)產(chǎn)生多個(gè)索引值。

如上圖所示，當(dāng)輸入 “semlinker” 時(shí)，預(yù)設(shè)的 3 個(gè)哈希函數(shù)將輸出 2、4、6，我們把相應(yīng)位置 1。假設(shè)另一個(gè)輸入 ”kakuqo“，哈希函數(shù)輸出 3、4 和 7。你可能已經(jīng)注意到，索引位 4 已經(jīng)被先前的 “semlinker” 標(biāo)記了。此時(shí)，我們已經(jīng)使用 “semlinker” 和 ”kakuqo“ 兩個(gè)輸入值，填充了位向量。當(dāng)前位向量的標(biāo)記狀態(tài)為：

當(dāng)對(duì)值進(jìn)行搜索時(shí)，與哈希表類(lèi)似，我們將使用 3 個(gè)哈希函數(shù)對(duì) ”搜索的值“ 進(jìn)行哈希運(yùn)算，并查看其生成的索引值。假設(shè)，當(dāng)我們搜索 ”fullstack“ 時(shí)，3 個(gè)哈希函數(shù)輸出的 3 個(gè)索引值分別是 2、3 和 7：

從上圖可以看出，相應(yīng)的索引位都被置為 1，這意味著我們可以說(shuō) ”fullstack“ 可能已經(jīng)插入到集合中。事實(shí)上這是誤報(bào)的情形，產(chǎn)生的原因是由于哈希碰撞導(dǎo)致的巧合而將不同的元素存儲(chǔ)在相同的比特位上。

那么我們?nèi)绾芜x擇哈希函數(shù)個(gè)數(shù)和布隆過(guò)濾器長(zhǎng)度很顯然，過(guò)小的布隆過(guò)濾器很快所有的bit位均為1，那么查詢(xún)?nèi)魏沃刀紩?huì)返回“可能存在”，起不到過(guò)濾的目的了。布隆過(guò)濾器的長(zhǎng)度會(huì)直接影響誤報(bào)率，布隆過(guò)濾器越長(zhǎng)其誤報(bào)率越小。

另外，哈希函數(shù)的個(gè)數(shù)也需要權(quán)衡，個(gè)數(shù)越多則布隆過(guò)濾器 bit 位置位 1 的速度越快，且布隆過(guò)濾器的效率越低；但是如果太少的話，那我們的誤報(bào)率會(huì)變高。

如何選擇適合業(yè)務(wù)的 k 和 m 值呢，幸運(yùn)的是，布隆過(guò)濾器有一個(gè)可預(yù)測(cè)的誤判率（FPP）：

n 是已經(jīng)添加元素的數(shù)量；

k 哈希的次數(shù)；

m 布隆過(guò)濾器的長(zhǎng)度（如比特?cái)?shù)組的大?。?；

極端情況下，當(dāng)布隆過(guò)濾器沒(méi)有空閑空間時(shí)（滿），每一次查詢(xún)都會(huì)返回 true 。這也就意味著 m 的選擇取決于期望預(yù)計(jì)添加元素的數(shù)量 n ，并且 m 需要遠(yuǎn)遠(yuǎn)大于 n 。

實(shí)際情況中，布隆過(guò)濾器的長(zhǎng)度 m 可以根據(jù)給定的誤判率（FFP）的和期望添加的元素個(gè)數(shù) n 的通過(guò)如下公式計(jì)算：

了解完上述的內(nèi)容之后，我們可以得出一個(gè)結(jié)論：當(dāng)我們搜索一個(gè)值的時(shí)候，若該值經(jīng)過(guò) K 個(gè)哈希函數(shù)運(yùn)算后的任何一個(gè)索引位為 ”0“，那么該值肯定不在集合中。但如果所有哈希索引值均為 ”1“，則只能說(shuō)該搜索的值可能存在集合中。

三、布隆過(guò)濾器應(yīng)用

在實(shí)際工作中，布隆過(guò)濾器常見(jiàn)的應(yīng)用場(chǎng)景如下：

網(wǎng)頁(yè)爬蟲(chóng)對(duì) URL 去重，避免爬取相同的 URL 地址；
反垃圾郵件，從數(shù)十億個(gè)垃圾郵件列表中判斷某郵箱是否垃圾郵箱；
Google Chrome 使用布隆過(guò)濾器識(shí)別惡意 URL；
Medium 使用布隆過(guò)濾器避免推薦給用戶已經(jīng)讀過(guò)的文章；
Google BigTable，Apache HBbase 和 Apache Cassandra 使用布隆過(guò)濾器減少對(duì)不存在的行和列的查找。

除了上述的應(yīng)用場(chǎng)景之外，布隆過(guò)濾器還有一個(gè)應(yīng)用場(chǎng)景就是解決緩存穿透的問(wèn)題。所謂的緩存穿透就是服務(wù)調(diào)用方每次都是查詢(xún)不在緩存中的數(shù)據(jù)，這樣每次服務(wù)調(diào)用都會(huì)到數(shù)據(jù)庫(kù)中進(jìn)行查詢(xún)，如果這類(lèi)請(qǐng)求比較多的話，就會(huì)導(dǎo)致數(shù)據(jù)庫(kù)壓力增大，這樣緩存就失去了意義。

利用布隆過(guò)濾器我們可以預(yù)先把數(shù)據(jù)查詢(xún)的主鍵，比如用戶 ID 或文章 ID 緩存到過(guò)濾器中。當(dāng)根據(jù) ID 進(jìn)行數(shù)據(jù)查詢(xún)的時(shí)候，我們先判斷該 ID 是否存在，若存在的話，則進(jìn)行下一步處理。若不存在的話，直接返回，這樣就不會(huì)觸發(fā)后續(xù)的數(shù)據(jù)庫(kù)查詢(xún)。需要注意的是緩存穿透不能完全解決，我們只能將其控制在一個(gè)可以容忍的范圍內(nèi)。

四、布隆過(guò)濾器的優(yōu)缺點(diǎn)

優(yōu)點(diǎn)

相比于其它的數(shù)據(jù)結(jié)構(gòu)，布隆過(guò)濾器在空間和時(shí)間方面都有巨大的優(yōu)勢(shì)。布隆過(guò)濾器存儲(chǔ)空間和插入/查詢(xún)時(shí)間都是常數(shù)（O(k)）。另外，散列函數(shù)相互之間沒(méi)有關(guān)系，方便由硬件并行實(shí)現(xiàn)。布隆過(guò)濾器不需要存儲(chǔ)元素本身，在某些對(duì)保密要求非常嚴(yán)格的場(chǎng)合有優(yōu)勢(shì)。

布隆過(guò)濾器可以表示全集，其它任何數(shù)據(jù)結(jié)構(gòu)都不能；

k和m相同，使用同一組散列函數(shù)的兩個(gè)布隆過(guò)濾器的交并運(yùn)算可以使用位操作進(jìn)行。

缺點(diǎn)

但是布隆過(guò)濾器的缺點(diǎn)和優(yōu)點(diǎn)一樣明顯。誤算率是其中之一。隨著存入的元素?cái)?shù)量增加，誤算率隨之增加。但是如果元素?cái)?shù)量太少，則使用散列表足矣。

另外，一般情況下不能從布隆過(guò)濾器中刪除元素。我們很容易想到把位數(shù)組變成整數(shù)數(shù)組，每插入一個(gè)元素相應(yīng)的計(jì)數(shù)器加1, 這樣刪除元素時(shí)將計(jì)數(shù)器減掉就可以了。然而要保證安全地刪除元素并非如此簡(jiǎn)單。首先我們必須保證刪除的元素的確在布隆過(guò)濾器里面。這一點(diǎn)單憑這個(gè)過(guò)濾器是無(wú)法保證的。另外計(jì)數(shù)器回繞也會(huì)造成問(wèn)題。

在降低誤算率方面，有不少工作，使得出現(xiàn)了很多布隆過(guò)濾器的變種。

五、布隆過(guò)濾器實(shí)戰(zhàn)

布隆過(guò)濾器有很多實(shí)現(xiàn)和優(yōu)化，由 Google 開(kāi)發(fā)著名的 Guava 庫(kù)就提供了布隆過(guò)濾器（Bloom Filter）的實(shí)現(xiàn)。在基于 Maven 的 Java 項(xiàng)目中要使用 Guava 提供的布隆過(guò)濾器，只需要引入以下坐標(biāo)：

<dependency>
   <groupId>com.google.guava</groupId>
   <artifactId>guava</artifactId>
   <version>28.0-jre</version>
</dependency>

復(fù)制代碼在導(dǎo)入 Guava 庫(kù)后，我們新建一個(gè) BloomFilterDemo 類(lèi)，在 main 方法中我們通過(guò) BloomFilter.create 方法來(lái)創(chuàng)建一個(gè)布隆過(guò)濾器，接著我們初始化 1 百萬(wàn)條數(shù)據(jù)到過(guò)濾器中，然后在原有的基礎(chǔ)上增加 10000 條數(shù)據(jù)并判斷這些數(shù)據(jù)是否存在布隆過(guò)濾器中：

import com.google.common.base.Charsets;
import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

public class BloomFilterDemo {
    public static void main(String[] args) {
        int total = 1000000; // 總數(shù)量
        BloomFilter<CharSequence> bf = 
          BloomFilter.create(Funnels.stringFunnel(Charsets.UTF_8), total);
        // 初始化 1000000 條數(shù)據(jù)到過(guò)濾器中
        for (int i = 0; i < total; i++) {
            bf.put("" + i);
        }
        // 判斷值是否存在過(guò)濾器中
        int count = 0;
        for (int i = 0; i < total + 10000; i++) {
            if (bf.mightContain("" + i)) {
                count++;
            }
        }
        System.out.println("已匹配數(shù)量 " + count);
    }
}

當(dāng)以上代碼運(yùn)行后，控制臺(tái)會(huì)輸出以下結(jié)果：

已匹配數(shù)量 1000309

很明顯以上的輸出結(jié)果已經(jīng)出現(xiàn)了誤報(bào)，因?yàn)橄啾阮A(yù)期的結(jié)果多了 309 個(gè)元素，誤判率為：

309/(1000000 + 10000) * 100 ≈ 0.030594059405940593

如果要提高匹配精度的話，我們可以在創(chuàng)建布隆過(guò)濾器的時(shí)候設(shè)置誤判率 fpp：

BloomFilter<CharSequence> bf = BloomFilter.create(
Funnels.stringFunnel(Charsets.UTF_8), total, 0.0002
);

在 BloomFilter 內(nèi)部，誤判率 fpp 的默認(rèn)值是 0.03：

// com/google/common/hash/BloomFilter.classpublic static &lt;T&gt; BloomFilter&lt;T&gt; create(Funnel&lt;? super T&gt; funnel, long expectedInsertions) {  return create(funnel, expectedInsertions, 0.03D);}

在重新設(shè)置誤判率為 0.0002 之后，我們重新運(yùn)行程序，這時(shí)控制臺(tái)會(huì)輸出以下結(jié)果：

已匹配數(shù)量 1000003

復(fù)制代碼通過(guò)觀察以上的結(jié)果，可知誤判率 fpp 的值越小，匹配的精度越高。當(dāng)減少誤判率 fpp 的值，需要的存儲(chǔ)空間也越大，所以在實(shí)際使用過(guò)程中需要在誤判率和存儲(chǔ)空間之間做個(gè)權(quán)衡。

六、總結(jié)

本文主要介紹的布隆過(guò)濾器的概念和常見(jiàn)的應(yīng)用場(chǎng)合，在實(shí)戰(zhàn)部分我們演示了 Google 著名的 Guava 庫(kù)所提供布隆過(guò)濾器（Bloom Filter）的基本使用，同時(shí)我們也介紹了布隆過(guò)濾器出現(xiàn)誤報(bào)的原因及如何提高判斷準(zhǔn)確性。最后為了便于大家理解布隆過(guò)濾器，我們介紹了一個(gè)簡(jiǎn)易版的布隆過(guò)濾器 SimpleBloomFilter。

本篇文章就到這里了，希望能夠給你帶來(lái)幫助，也希望您能夠多多關(guān)注腳本之家的更多內(nèi)容!

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫(kù)

CMS

常用工具

什么是Java布隆過(guò)濾器?如何使用你知道嗎

目錄

一、布隆過(guò)濾器簡(jiǎn)介

二、布隆過(guò)濾器的結(jié)構(gòu)

三、布隆過(guò)濾器應(yīng)用

四、布隆過(guò)濾器的優(yōu)缺點(diǎn)

五、布隆過(guò)濾器實(shí)戰(zhàn)

六、總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

什么是Java布隆過(guò)濾器?如何使用你知道嗎

目錄

一、布隆過(guò)濾器簡(jiǎn)介

二、布隆過(guò)濾器的結(jié)構(gòu)

三、布隆過(guò)濾器應(yīng)用

四、布隆過(guò)濾器的優(yōu)缺點(diǎn)

五、布隆過(guò)濾器實(shí)戰(zhàn)

六、總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

一、布隆過(guò)濾器簡(jiǎn)介

二、布隆過(guò)濾器的結(jié)構(gòu)

三、布隆過(guò)濾器應(yīng)用

四、布隆過(guò)濾器的優(yōu)缺點(diǎn)

五、布隆過(guò)濾器實(shí)戰(zhàn)

六、總結(jié)