Python如何將大TXT文件分割成4KB小文件
處理大文本文件是程序員經(jīng)常遇到的挑戰(zhàn)。特別是當(dāng)我們需要把一個幾百M(fèi)B甚至幾個GB的TXT文件分割成小塊時,手動操作顯然不現(xiàn)實(shí)。今天我們就來聊聊如何用Python自動完成這個任務(wù),特別是如何精確控制每個分割文件的大小為4KB。
為什么需要分割TXT文件
在實(shí)際開發(fā)中,我們可能會遇到這些情況:
- 某些老舊系統(tǒng)只能處理小體積文本文件
- 需要將日志文件分割后上傳到云存儲
- 進(jìn)行分布式處理時需要將數(shù)據(jù)分片
- 調(diào)試時需要用小文件快速測試
4KB是個很常用的分割尺寸,因?yàn)樗檬呛芏嘞到y(tǒng)默認(rèn)的內(nèi)存頁大小,處理起來效率很高。那么問題來了:怎么用Python實(shí)現(xiàn)這個需求呢?
基礎(chǔ)版:按行分割
我們先來看一個最簡單的實(shí)現(xiàn)方式:
def split_by_line(input_file, output_prefix, chunk_size=4000): with open(input_file, 'r', encoding='utf-8') as f: file_count = 1 current_size = 0 output_file = None for line in f: line_size = len(line.encode('utf-8')) if current_size + line_size > chunk_size: if output_file: output_file.close() output_file = open(f"{output_prefix}_{file_count}.txt", 'w', encoding='utf-8') file_count += 1 current_size = 0 if not output_file: output_file = open(f"{output_prefix}_{file_count}.txt", 'w', encoding='utf-8') file_count += 1 output_file.write(line) current_size += line_size if output_file: output_file.close()
這個腳本可以按行分割文件,盡量保證每個文件不超過指定大小。但是有個問題:它不能精確控制文件大小正好是4KB,特別是當(dāng)某一行特別長時,單個文件可能會超過限制。
進(jìn)階版:精確控制文件大小
要實(shí)現(xiàn)更精確的控制,我們需要按字節(jié)而不是按行來處理:
def split_by_size(input_file, output_prefix, chunk_size=4096): with open(input_file, 'rb') as f: file_count = 1 while True: chunk = f.read(chunk_size) if not chunk: break with open(f"{output_prefix}_{file_count}.txt", 'wb') as out_file: out_file.write(chunk) file_count += 1
注意! 這里我們用二進(jìn)制模式(‘rb’)打開文件,這樣可以精確控制讀取的字節(jié)數(shù)。但是這樣可能會在UTF-8編碼的中文文件中出現(xiàn)亂碼,因?yàn)橐粋€中文字符可能被從中間截?cái)唷?/p>
完美解決方案:支持UTF-8編碼
為了解決中文亂碼問題,我們需要更智能的處理方式:
def split_utf8_safely(input_file, output_prefix, chunk_size=4096): buffer = "" file_count = 1 current_size = 0 with open(input_file, 'r', encoding='utf-8') as f: while True: char = f.read(1) if not char: if buffer: with open(f"{output_prefix}_{file_count}.txt", 'w', encoding='utf-8') as out_file: out_file.write(buffer) break char_size = len(char.encode('utf-8')) if current_size + char_size > chunk_size: with open(f"{output_prefix}_{file_count}.txt", 'w', encoding='utf-8') as out_file: out_file.write(buffer) file_count += 1 buffer = "" current_size = 0 buffer += char current_size += char_size
這個方法逐個字符讀取文件,確保不會截?cái)喽嘧止?jié)字符。雖然速度會慢一些,但能保證分割后的文件都能正常顯示中文內(nèi)容。
性能優(yōu)化:使用緩沖區(qū)
處理大文件時,逐個字符讀取效率太低。我們可以用緩沖區(qū)來提升性能:
def split_with_buffer(input_file, output_prefix, chunk_size=4096, buffer_size=1024): buffer = "" file_count = 1 current_size = 0 with open(input_file, 'r', encoding='utf-8') as f: while True: chunk = f.read(buffer_size) if not chunk: if buffer: with open(f"{output_prefix}_{file_count}.txt", 'w', encoding='utf-8') as out_file: out_file.write(buffer) break buffer += chunk while len(buffer.encode('utf-8')) >= chunk_size: # 找到不超過chunk_size的最大子串 split_pos = 0 for i in range(1, len(buffer)+1): if len(buffer[:i].encode('utf-8')) <= chunk_size: split_pos = i else: break with open(f"{output_prefix}_{file_count}.txt", 'w', encoding='utf-8') as out_file: out_file.write(buffer[:split_pos]) file_count += 1 buffer = buffer[split_pos:] current_size = 0
處理特殊情況
實(shí)際應(yīng)用中我們還需要考慮一些特殊情況:
- 文件頭處理:如果需要保留原文件的頭信息到每個分割文件
- 行完整性:某些場景下需要保持行的完整性
- 內(nèi)存限制:處理超大文件時的內(nèi)存優(yōu)化
- 進(jìn)度顯示:添加進(jìn)度條讓長時間運(yùn)行的任務(wù)更友好
這里給出一個保留文件頭的實(shí)現(xiàn)示例:
def split_with_header(input_file, output_prefix, chunk_size=4096, header_lines=1): # 先讀取文件頭 with open(input_file, 'r', encoding='utf-8') as f: header = [next(f) for _ in range(header_lines)] buffer = "" file_count = 1 current_size = len(''.join(header).encode('utf-8')) with open(input_file, 'r', encoding='utf-8') as f: # 跳過已經(jīng)讀取的文件頭 for _ in range(header_lines): next(f) while True: char = f.read(1) if not char: if buffer: with open(f"{output_prefix}_{file_count}.txt", 'w', encoding='utf-8') as out_file: out_file.writelines(header) out_file.write(buffer) break char_size = len(char.encode('utf-8')) if current_size + char_size > chunk_size: with open(f"{output_prefix}_{file_count}.txt", 'w', encoding='utf-8') as out_file: out_file.writelines(header) out_file.write(buffer) file_count += 1 buffer = "" current_size = len(''.join(header).encode('utf-8')) buffer += char current_size += char_size
總結(jié)
我們介紹了多種Python分割TXT文件的方法:
簡單的按行分割適合行結(jié)構(gòu)明顯的文件
按字節(jié)分割效率最高但不支持UTF-8
帶UTF-8支持的版本適合中文文本
緩沖區(qū)的版本在性能和準(zhǔn)確性之間取得平衡
特殊需求如保留文件頭需要額外處理
記??! 選擇哪種方法取決于你的具體需求。如果是處理GB級別的大文件,建議使用緩沖區(qū)方案并考慮內(nèi)存映射等高級技術(shù)。希望這篇指南能幫你解決文件分割的問題!
到此這篇關(guān)于Python如何將大TXT文件分割成4KB小文件的文章就介紹到這了,更多相關(guān)Python大文件分割內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python使用異步線程池如何實(shí)現(xiàn)異步TCP服務(wù)器交互
這篇文章主要介紹了Python使用異步線程池如何實(shí)現(xiàn)異步TCP服務(wù)器交互問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-11-11使用graphics.py實(shí)現(xiàn)2048小游戲
本文給大家分享的是使用Python實(shí)現(xiàn)2048小游戲的源碼,非QT實(shí)現(xiàn)的哦,推薦給大家,有需要的小伙伴參考下吧。2015-03-03python 產(chǎn)生token及token驗(yàn)證的方法
今天小編就為大家分享一篇python 產(chǎn)生token及token驗(yàn)證的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12如何實(shí)現(xiàn)Django Rest framework版本控制
這篇文章主要介紹了如何實(shí)現(xiàn)Django Rest framework版本控制,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-07-07python中子類與父類的關(guān)系基礎(chǔ)知識點(diǎn)
在本篇文章里小編給大家整理的是一篇關(guān)于python中子類與父類的關(guān)系基礎(chǔ)知識點(diǎn)內(nèi)容,對此有興趣的朋友們可以學(xué)習(xí)下。2021-02-02Python3實(shí)現(xiàn)獲取圖片文字里中文的方法分析
這篇文章主要介紹了Python3實(shí)現(xiàn)獲取圖片文字里中文的方法,結(jié)合實(shí)例形式分析了Python基于文字識別引擎tesseract-ocr針對圖片里中文識別的相關(guān)操作技巧與操作注意事項(xiàng),需要的朋友可以參考下2018-12-12Python實(shí)現(xiàn)把utf-8格式的文件轉(zhuǎn)換成gbk格式的文件
這篇文章主要介紹了Python實(shí)現(xiàn)把utf-8格式的文件轉(zhuǎn)換成gbk格式的文件,本文給出了實(shí)現(xiàn)代碼并同時剖析了代碼的作用,需要的朋友可以參考下2015-01-01