Java實現(xiàn)讀取超過內存大小的文件
讀取文件內容,然后進行處理,在Java中我們通常利用 Files 類中的方法,將可以文件內容加載到內存,并流順利地進行處理。但是,在一些場景下,我們需要處理的文件可能比我們機器所擁有的內存要大。此時,我們則需要采用另一種策略:部分讀取它,并具有其他結構來僅編譯所需的數(shù)據(jù)。
接下來,我們就來說說這一場景:當遇到大文件,無法一次載入內存時候要如何處理。
模擬場景
假設,當前我們需要開發(fā)一個程序來分析來自服務器的日志文件,并生成一份報告,列出前 10 個最常用的應用程序。
每天,都會生成一個新的日志文件,其中包含時間戳、主機信息、持續(xù)時間、服務調用等信息,以及可能與我們的特定方案無關的其他數(shù)據(jù)。
2024-02-25T00:00:00.000+GMT host7 492 products 0.0.3 PUT 73.182.150.152 eff0fac5-b997-40a3-87d8-02ff2f397b44
2024-02-25T00:00:00.016+GMT host6 123 logout 2.0.3 GET 34.235.76.94 8b97acae-dd36-4e83-b423-12905a4ab38d
2024-02-25T00:00:00.033+GMT host6 50 payments/:id 0.4.6 PUT 148.241.146.59 ac3c9064-4782-46d9-a0b6-69e4d55a5b38
2024-02-25T00:00:00.050+GMT host2 547 orders 1.5.0 PUT 6.232.116.248 2285a81e-c511-41b9-b0ea-a475a0a45805
2024-02-25T00:00:00.067+GMT host4 400 suggestions 0.8.6 DELETE 149.138.227.154 8031b639-700e-4a7c-b257-fcbed0d029ce
2024-02-25T00:00:00.084+GMT host2 644 login 6.90 GET 208.158.145.204 3906a28c-56e4-4e5f-b548-591eab737aa7
2024-02-25T00:00:00.101+GMT host5 339 suggestions 0.8.9 PUT 173.109.21.97 c7dfec8a-5ca8-4d0d-b903-aaf65629fdd0
2024-02-25T00:00:00.118+GMT host9 87 products 2.6.3 POST 220.252.90.140 e5ceef67-2f0f-4c2d-a6d2-c698598aaef2
2024-02-25T00:00:00.134+GMT host0 845 products 9.4.6 GET 136.79.178.188 f28578c1-c37c-47a3-a473-4e65371e0245
2024-02-25T00:00:00.151+GMT host4 675 login 0.89 DELETE 32.159.65.239 d27ff353-e501-43e6-bdce-680d79a07c36
我們的代碼將收到日志文件列表,我們的目標是編制一份報告,列出最常用的 10 個服務。但是,要包含在報告中,服務必須在提供的每個日志文件中至少有一個條目。簡而言之,一項服務必須每天使用才有資格包含在報告中。
基礎實現(xiàn)
解決這個問題的最初方法是考慮業(yè)務需求并創(chuàng)建以下代碼:
public void processFiles(final List<File> fileList) { final Map<LocalDate, List<LogLine>> fileContent = getFileContent(fileList); final List<String> serviceList = getServiceList(fileContent); final List<Statistics> statisticsList = getStatistics(fileContent, serviceList); final List<Statistics> topCalls = getTop10(statisticsList); print(topCalls); }
該方法接收文件列表作為參數(shù),核心流程如下:
- 創(chuàng)建一個包含每個文件條目的映射,其中Key是 LocalDate,Value是文件行列表。
- 使用所有文件中的唯一服務名稱創(chuàng)建字符串列表。
- 生成所有服務的統(tǒng)計信息列表,將文件中的數(shù)據(jù)組織到結構化地圖中。
- 篩選統(tǒng)計信息,獲取排名前 10 的服務調用。
- 打印結果。
可以注意到,這種方法將太多數(shù)據(jù)加載到內存中,不可避免地會導致 OutOfMemoryError
改進實現(xiàn)
就如文章開頭說的,我們需要采用另一種策略:逐行處理文件的模式。
private void processFiles(final List<File> fileList) { final Map<String, Counter> compiledMap = new HashMap<>(); for (int i = 0; i < fileList.size(); i++) { processFile(fileList, compiledMap, i); } final List<Counter> topCalls = compiledMap.values().stream() .filter(Counter::allDaysSet) .sorted(Comparator.comparing(Counter::getNumberOfCalls).reversed()) .limit(10) .toList(); print(topCalls); }
- 首先,它聲明一個Map(compiledMap),其中一個String作為鍵,代表服務名稱,以及一個Counter對象(稍后解釋),它將存儲統(tǒng)計信息。
- 接下來,它逐一處理這些文件并相應地更新compileMap。
- 然后,它利用流功能來: 僅過濾具有全天數(shù)據(jù)的計數(shù)器;按調用次數(shù)排序;最后,檢索前 10 名。
在看整個處理的核心processFile
方法之前,我們先來分析一下Counter
類,它在這個過程中也起到了至關重要的作用:
public class Counter { @Getter private String serviceName; @Getter private long numberOfCalls; private final BitSet daysWithCalls; public Counter(final String serviceName, final int numberOfDays) { this.serviceName = serviceName; this.numberOfCalls = 0L; daysWithCalls = new BitSet(numberOfDays); } public void add() { numberOfCalls++; } public void setDay(final int dayNumber) { daysWithCalls.set(dayNumber); } public boolean allDaysSet() { return daysWithCalls.stream() .mapToObj(index -> daysWithCalls.get(index)) .reduce(Boolean.TRUE, Boolean::logicalAnd); } }
- 它包含三個屬性:serviceName、numberOfCalls 和 daysWithCalls
- numberOfCalls 屬性通過 add 方法遞增,該方法為 serviceName 的每個處理行調用。
- daysWithCalls 屬性是一個 Java BitSet,一種用于存儲布爾屬性的內存高效結構。它使用要處理的天數(shù)進行初始化,每個位代表一天,初始化為 false。
- setDay 方法將 BitSet 中與給定日期位置相對應的位設置為 true。
allDaysSet 方法負責檢查 BitSet 中的所有日期是否都設置為 true。它通過將 BitSet 轉換為布爾流,然后使用邏輯 AND 運算符減少它來實現(xiàn)此目的。
private void processFile(final List<File> fileList, final Map<String, Counter> compiledMap, final int dayNumber) { try (Stream<String> lineStream = Files.lines(fileList.get(dayNumber).toPath())) { lineStream .map(this::toLogLine) .forEach( logLine -> { Counter counter = compiledMap.get(logLine.serviceName()); if (counter == null) { counter = new Counter(logLine.serviceName(), fileList.size()); compiledMap.put(logLine.serviceName(), counter); } counter.add(); counter.setDay(dayNumber); }); } catch (final IOException e) { throw new RuntimeException(e); } }
- 該過程使用Files類的lines方法逐行讀取文件,并將其轉換為流。這里的關鍵特征是lines方法是惰性的,這意味著它不會立即讀取整個文件;相反,它會在流被消耗時讀取文件。
- toLogLine 方法將每個字符串文件行轉換為具有用于訪問日志行信息的屬性的對象。
- 處理文件行的主要過程比預期的要簡單。它從與serviceName關聯(lián)的compileMap中檢索(或創(chuàng)建)Counter,然后調用Counter的add和setDay方法。
正如我們所看到的,在 Java 中處理大文件而不將整個文件加載到內存中并不是什么復雜的事情。 Files類提供了逐行處理文件的方法,我們還可以在文件處理過程中利用哈希來存儲數(shù)據(jù),這有助于節(jié)省內存。
到此這篇關于Java實現(xiàn)讀取超過內存大小的文件的文章就介紹到這了,更多相關Java讀取超過內存大小的文件內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Java開發(fā)HashMap?key必須實現(xiàn)hashCode?equals方法原理
這篇文章主要為大家介紹了Java開發(fā)HashMap?key必須實現(xiàn)hashCode?equals方法原理詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-03-03SpringBoot中@ComponentScan注解過濾排除不加載某個類的3種方法
這篇文章主要給大家介紹了關于SpringBoot中@ComponentScan注解過濾排除不加載某個類的3種方法,文中通過實例代碼介紹的非常詳細,對大家學習或者使用SpringBoot具有一定的參考學習價值,需要的朋友可以參考下2023-07-07Spring使用@Value注解與@PropertySource注解加載配置文件操作
這篇文章主要介紹了Spring使用@Value注解與@PropertySource注解加載配置文件操作,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-06-06關于Spring BeanPostProcessor的執(zhí)行順序
這篇文章主要介紹了Spring BeanPostProcessor的執(zhí)行順序,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-10-10