欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java中利用BitMap位圖實(shí)現(xiàn)海量級數(shù)據(jù)去重

 更新時間:2024年04月09日 09:03:08   作者:牽著貓散步的鼠鼠  
有許多方法可以用來去重,比如使用列表、集合等等,但這些方法通常只適用于一般情況,然而,當(dāng)涉及到大量數(shù)據(jù)去重時,常見的 Java Set、List,甚至是 Java 8 的新特性 Stream 流等方式就顯得不太合適了,本文給大家介紹了Java中利用BitMap位圖實(shí)現(xiàn)海量級數(shù)據(jù)去重

1.前言

有許多方法可以用來去重,比如使用列表、集合等等,但這些方法通常只適用于一般情況。然而,當(dāng)涉及到大量數(shù)據(jù)去重時,常見的 Java Set、List,甚至是 Java 8 的新特性 Stream 流等方式就顯得不太合適了。在處理大量數(shù)據(jù)的需求場景下,我們不得不提及 BitMap。

2.什么是BitMap?有什么用?

2.1.基本概念

位圖(BitMap),基本思想就是用一個bit來標(biāo)記元素,bit是計算機(jī)中最小的單位,也就是我們常說的計算機(jī)中的0和1,這種就是用一個位來表示的。

所謂位圖,其實(shí)就是一個bit數(shù)組,即每一個位置都是一個bit,其中的取值可以是0或者1

像上面的這個位圖,可以用來表示1,4,6:

如果不用位圖的話,我們想要記錄1,4,,6 這三個整型的話,就需要用三個unsigned int,已知每個unsigned int占4個字節(jié),那么就是3_4 = 12個字節(jié),一個字節(jié)有8 bit,那么就是 12_8 = 96 個bit。

所以,位圖最大的好處就是節(jié)省空間。

位圖有很多種用途,特別適合用在去重、排序等場景中,著名的布隆過濾器就是基于位圖實(shí)現(xiàn)的。

2.2.位圖的優(yōu)勢

  • 空間效率優(yōu)勢:極大的節(jié)省了存儲空間,對于大量稀疏數(shù)據(jù),特別是當(dāng)元素數(shù)量遠(yuǎn)大于實(shí)際存在的項(xiàng)時,相比較于使用傳統(tǒng)的列表、集合等數(shù)據(jù)結(jié)構(gòu),位圖的空間占用極小。
  • 查詢速度:由于內(nèi)存訪問時按字節(jié)或字進(jìn)行的。因此對單個元素的存在性檢查時間復(fù)雜度為O(1),即常量時間,非??焖佟?/li>
  • 批量操作高效:對于批量插入、刪除和查詢操作,尤其是統(tǒng)計范圍內(nèi)元素的數(shù)量,位圖表現(xiàn)出優(yōu)秀的性能。

2.3.位圖的劣勢

但是位圖也有著一定的限制,那就是他只能表示0和1,無法存儲其他的數(shù)字。所以他只適合這種能表示true or false的場景。

3.BitMap和Int的區(qū)別

以Java中的int為例,來對比觀察BitMap的優(yōu)勢,再Java中,int類型通常需要32位,而BitMap使用1位就可以來標(biāo)識此元素是否存在,所以可以認(rèn)為BitMap占用的空間大小只有int類型的1/32,所以有大量數(shù)據(jù)判重時,使用BitMap也可以實(shí)現(xiàn)。

了解了什么是BitMap,那么我們就可以使用BitMap來解決大量數(shù)據(jù)去重的問題

4.使用場景

假設(shè)我們有40億個無符號整數(shù)數(shù)據(jù),并且都是10位的話,如果直接使用內(nèi)存來存儲,大約需要14.9GB 的空間。

每個無符號整數(shù)通常占用4個字節(jié)(32位),因此40億個無符號整數(shù)所需要的總字節(jié)數(shù)位4*4000000000字節(jié)。 總字節(jié)數(shù)轉(zhuǎn)換為GB:4*4000000000 / 1024 / 1024 /1024 = 14.9 GB

考慮到其中有一些重復(fù)的數(shù)據(jù),即使這樣1G的空間基本上也是不夠的。所以想要實(shí)現(xiàn)這個功能可以借助BitMap。

如果使用位圖的話,40億萬所需要的內(nèi)存大概也就是 476M

40億無符號整數(shù)數(shù)據(jù)的總字節(jié)數(shù)是4000000000 字節(jié),在位圖中1個10位的無符號整數(shù)可以使用1 bit表示,然后1 字節(jié) = 8 位(bit)。 4000000000 bit * 1/8 求出字節(jié)數(shù),再 / 1024得到占用的KB數(shù),最后/ 1024得到占用的MB數(shù) 4000000000 * 1 /8 /1024/1024 = 476M

這樣相比于之前的14.9G來說,大大的節(jié)省了很多空間。

比如要把數(shù)據(jù)"714771310"放到BitMap中,就需要找到第714771310這個位置,然后把他設(shè)置成1就可以了。

這樣,把40億個數(shù)字都放到BitMap之后,所有位置上是1的表示存在,不為1的表示不存在,相同的數(shù)據(jù)只需要設(shè)置一次1就可以了,那么,最終就把所有是1的數(shù)字遍歷出來就行了。

5.BitMap在Java中的使用

BitMap在Java中的具體實(shí)現(xiàn)時java.util中的BitSet,BitSet是一個可變大小的位向量,能夠動態(tài)增長以容納更多的數(shù)據(jù),以下是BitSet基本使用示例:

import java.util.BitSet;
 
public class BitmapExample {
    public static void main(String[] args) {
        // 創(chuàng)建一個BitSet實(shí)例
        BitSet bitmap = new BitSet();
 
        // 設(shè)置第5個位置為1,表示第5個元素存在
        bitmap.set(5);
 
        // 檢查第5個位置是否已設(shè)置
        boolean exists = bitmap.get(5);
        System.out.println("Element at position 5 exists: " + exists);  // 輸出: Element at position 5 exists: true
 
        // 設(shè)置從索引10到20的所有位置為1
        bitmap.set(10, 21);  // 參數(shù)是包含起始點(diǎn)和不包含終點(diǎn)的區(qū)間
 
        // 計算bitset中所有值為1的位的數(shù)量,相當(dāng)于計算設(shè)置了的元素個數(shù)
        int count = bitmap.cardinality();
        System.out.println("Number of set bits: " + count);
 
        // 清除第5個位置
        bitmap.clear(5);
 
        // 判斷位圖是否為空
        boolean isEmpty = bitmap.isEmpty();
        System.out.println("Is the bitset empty after clearing some bits? " + isEmpty);
    }
}

6.總結(jié) 

本文簡單的講解了如何使用BitMap進(jìn)行大量數(shù)據(jù)的去重,BitMap的空間占用極小,對單個元素的存在性檢查時間復(fù)雜度為O(1),非??焖?,除了BitMap外,我們也可以采取布隆過濾器來完成去重,但是布隆過濾器存在誤判問題,可以根據(jù)實(shí)際場景來分析使用哪種方案

以上就是Java中利用BitMap位圖實(shí)現(xiàn)海量級數(shù)據(jù)去重的詳細(xì)內(nèi)容,更多關(guān)于Java BitMap數(shù)據(jù)去重的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Java線程池必知必會知識點(diǎn)總結(jié)

    Java線程池必知必會知識點(diǎn)總結(jié)

    這篇文章主要給大家介紹了關(guān)于Java線程池必知必會知識點(diǎn)的相關(guān)資料,文中通過圖文以及實(shí)例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2022-02-02
  • mybatisplus 的SQL攔截器實(shí)現(xiàn)關(guān)聯(lián)查詢功能

    mybatisplus 的SQL攔截器實(shí)現(xiàn)關(guān)聯(lián)查詢功能

    大家都知道m(xù)ybatisplus不支持關(guān)聯(lián)查詢,后來學(xué)習(xí)研究發(fā)現(xiàn)mybatisplus的SQL攔截器可以實(shí)現(xiàn)這一操作,下面小編給大家分享我的demo實(shí)現(xiàn)基本的關(guān)聯(lián)查詢功能沒有問題,對mybatisplus關(guān)聯(lián)查詢相關(guān)知識感興趣的朋友一起看看吧
    2021-06-06
  • java限流算法詳細(xì)

    java限流算法詳細(xì)

    這篇文章詳細(xì)的介紹了java限流算法常用到的算法計數(shù)算法、漏桶算法、令牌桶等算法的相關(guān)資料,需要的朋友可以參考下文,希望本篇文章能幫助到您
    2021-09-09
  • 利用Java查看進(jìn)程內(nèi)存占用情況的實(shí)現(xiàn)方法

    利用Java查看進(jìn)程內(nèi)存占用情況的實(shí)現(xiàn)方法

    在系統(tǒng)監(jiān)控和性能調(diào)優(yōu)中,了解各個進(jìn)程的內(nèi)存占用情況是非常重要的一環(huán),通過查看進(jìn)程內(nèi)存使用情況,開發(fā)者和運(yùn)維人員可以及時發(fā)現(xiàn)異常進(jìn)程、資源瓶頸和內(nèi)存泄漏問題,本項(xiàng)目旨在使用 Java 編寫一個簡單的程序,通過調(diào)用操作系統(tǒng)的命令來獲取系統(tǒng)中各個進(jìn)程的內(nèi)存使用情況
    2025-03-03
  • Java面試題沖刺第二十天--算法(1)

    Java面試題沖刺第二十天--算法(1)

    這篇文章主要為大家分享了最有價值的三道關(guān)于算法的面試題,涵蓋內(nèi)容全面,包括數(shù)據(jù)結(jié)構(gòu)和算法相關(guān)的題目、經(jīng)典面試編程題等,感興趣的小伙伴們可以參考一下
    2021-08-08
  • Java fastjson解析json字符串實(shí)現(xiàn)過程解析

    Java fastjson解析json字符串實(shí)現(xiàn)過程解析

    這篇文章主要介紹了Java fastjson解析json字符串實(shí)現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-10-10
  • SpringBoot disruptor高性能隊列使用

    SpringBoot disruptor高性能隊列使用

    這篇文章主要介紹了SpringBoot disruptor高性能隊列使用,Disruptor是英國外匯交易公司LMAX開發(fā)的一個高性能隊列,研發(fā)的初衷是解決內(nèi)存隊列的延遲問題
    2023-02-02
  • Java語言class類用法及泛化(詳解)

    Java語言class類用法及泛化(詳解)

    這篇文章主要介紹了Java語言class類用法及泛化(詳解),大家都知道Java程序在運(yùn)行過程中,對所有的對象今夕類型標(biāo)識,也就是RTTI。這項(xiàng)信息記錄了每個對象所屬的類,需要的朋友可以參考下
    2015-07-07
  • Java中數(shù)據(jù)庫常用的兩把鎖之樂觀鎖和悲觀鎖

    Java中數(shù)據(jù)庫常用的兩把鎖之樂觀鎖和悲觀鎖

    這篇文章主要介紹了數(shù)據(jù)庫常用的兩把鎖之樂觀鎖和悲觀鎖,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-07-07
  • Java8對List排序的方法大全

    Java8對List排序的方法大全

    這篇文章主要給大家介紹了關(guān)于Java8對List排序的方法大全,其實(shí)Java針對數(shù)組和List的排序都有實(shí)現(xiàn),文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2023-07-07

最新評論