使用python讀寫txt和json(jsonl)大文件的方法步驟
前言
在深度學習方向,尤其是NLP領域,最重要的就是和海量的文字打交道,不管是讀取原始數(shù)據(jù)還是處理數(shù)據(jù)亦或是最終寫數(shù)據(jù),合理的讀寫文件是極為重要的,這篇博客用以記錄一下工作中學習到的對大文件讀寫的過程。
讀寫txt文本文件
最簡單也是最常見的就是讀寫txt文本文件
讀寫txt文件直接調用python內(nèi)部庫的open和write函數(shù)就基本可以了,比如中student.txt文件中:
張奇 18 計算機學院 看書,打籃球,看電影
劉欣 19 計算機學院 唱歌,健身
杜航 18 計算機學院 動漫,看書
盛蓉 20 外國語學院 唱歌,看書,美食
余杰 20 土木學院 唱歌,運動,游戲
王某 19 土木學院 羽毛球,游戲
李某 20 外國語學院 動漫,唱歌
其中分別為姓名,年齡,學院,興趣愛好,每類用一個制表符(\t)隔開,興趣愛好中間用英文逗號分隔開來,然后用open打開txt文件并將內(nèi)容讀取打印
file_txt = "student.txt" with open(file_txt) as file: for line in file: name,age,department,hobby = line.strip().split("\t") print(name,age,department,hobby)
同樣,也可以用write函數(shù)寫到一個新的文件中去,過程中我們可以用幾個list先將數(shù)據(jù)存起來,也可以一邊讀一邊寫,但是一行行讀一行行寫小數(shù)據(jù)還好,當文件過大時大量的文件io會話費大量的時間,但是使用list全部存儲然后寫的話又會比較耗內(nèi)存,各有優(yōu)劣,看情況使用
使用list:
file_txt = "student.txt" file_new_txt = "newstudent.txt" stu = [] with open(file_txt) as file: for line in file: name,age,department,hobby = line.strip().split("\t") stu.append(name+"-"+age+"-"+department+"-"+hobby) with open(file_new_txt,"a+") as file: for student in stu: file.write(student+"\n")
邊讀邊寫:
file_txt = "student.txt" file_new_txt = "newstudent.txt" with open(file_txt) as file: for line in file: name,age,department,hobby = line.strip().split("\t") with open(file_new_txt,"a+") as file_new: file_new.write(name+"-"+age+"-"+department+"-"+hobby+"\n")
txt文件是最常用的,但是也有其局限性,就是很難對文件中分隔開的內(nèi)容進行標注,比如,對每一行數(shù)據(jù)都標明姓名:張奇,年齡:18這樣,這時就需要用到json文件格式了
讀寫JSON文件
python中對json文件的讀寫需要導入json包,然后調用包內(nèi)函數(shù)就可以完成讀寫了
import json file_txt_path = "student.txt" file_json_path = "student.json" with open(file_txt_path) as file: for line in file: name,age,department,hobby = line.strip().split("\t") hobby = hobby.split(",") data = { "姓名":name, "年齡":age, "學院":department, "愛好":hobby } with open(file_json_path,"a+") as file_json: file_json.write(json.dumps(data,ensure_ascii=False)) file_json.write(","+"\n")
這樣就會獲得這樣一個json文件
但是這樣的json文件格式是有問題的,我們需要在前面和后面加個[],并且把最后面那個","去掉
前后加[]倒是比較簡單,如何去掉最后一個","倒是比較頭疼,我暫時的思路是統(tǒng)計txt文件行數(shù),在最后一行的時候就不寫入","了
我們調用wc來統(tǒng)計文件行數(shù):
import json file_txt_path = "student.txt" file_json_path = "student.json" def _wc_count(file_name): """通過wc命令統(tǒng)計文件行數(shù)""" import subprocess out = subprocess.getoutput("wc -l %s" % file_name) return int(out.split()[0]) count = _wc_count(file_txt_path) i = 0 with open(file_json_path,"a+") as file: file.write("["+"\n") with open(file_txt_path) as file: for line in file: name,age,department,hobby = line.strip().split("\t") hobby = hobby.split(",") data = { "姓名":name, "年齡":age, "學院":department, "愛好":hobby } with open(file_json_path,"a+") as file_json: file_json.write(json.dumps(data,ensure_ascii=False)) if(i < count): file_json.write(","+"\n") else: file_json.write("\n") file_json.write("]") i +=1
這樣寫入之后就變成了
這樣,將完成了json文件的寫入
json文件的讀會比較不太好用,因為它是無法一行行或者說一條條數(shù)據(jù)的讀的,只能一次性將所有內(nèi)容讀到內(nèi)存中,代碼如下:
import json file_json_path = "student.json" with open(file_json_path) as file: result = json.loads(file.read()) #result是一個json對象 for stu in result: hobby = ",".join(stu["愛好"]) print(stu["姓名"]+"\t"+stu["年齡"]+"\t"+stu["學院"]+"\t"+hobby)
但是上面也提到了,json文件只能一次性將所有內(nèi)容讀到內(nèi)存中然后進行操作,當文件很大的時候這樣說不合理的,尤其是現(xiàn)在的NLP領域,文件都有數(shù)十G甚至上百G,顯然內(nèi)存是不足以放下的,那么這樣,我們就要用到一個可以逐行讀取json對象的文件格式了
讀寫JSONL文件
jsonl文件的讀寫和json文件很相似,但是文件格式上有一絲絲的不同
圖中將}后面的","去掉就是一個完整的jsonl文件格式
所以,我們寫jsonl文件就十分方便了。代碼如下
import jsonlines file_txt_path = "student.txt" file_jsonl_path = "student.jsonl" with open(file_txt_path) as file: for line in file: name,age,department,hobby = line.strip().split("\t") hobby = hobby.split(",") data = { "姓名":name, "年齡":age, "學院":department, "愛好":hobby } with jsonlines.open(file_jsonl_path,mode="a") as file_jsonl: file_jsonl.write(data)
然后就是jsonl的讀了,代碼如下:
import jsonlines file_jsonl_path = "student.jsonl" with open(file_jsonl_path) as file: for stu in jsonlines.Reader(file): hobby = ",".join(stu["愛好"]) print(stu["姓名"]+"\t"+stu["年齡"]+"\t"+stu["學院"]+"\t"+hobby)
這樣,就可以實現(xiàn)一條條讀取json對象了
遇到的問題
上面這些可以滿足大部分對數(shù)據(jù)的讀寫了,但是我在工作中遇到了一個問題,就是json對象的刪除情況,在json文件中,可以直接調用del來刪除字段,但是中jsonl文件中,我無法刪除指定字段,只能用復寫新文件的方法來實現(xiàn),翻閱了很久的資料都沒有找到相應的方法,希望有大佬能在評論區(qū)指導一下
總結
到此這篇關于使用python讀寫txt和json(jsonl)大文件的文章就介紹到這了,更多相關python讀寫txt和json大文件內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
python中Tkinter 窗口之輸入框和文本框的實現(xiàn)
這篇文章主要介紹了python中Tkinter 窗口之輸入框和文本框的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2021-04-04scrapy數(shù)據(jù)存儲在mysql數(shù)據(jù)庫的兩種方式(同步和異步)
這篇文章主要介紹了scrapy數(shù)據(jù)存儲在mysql數(shù)據(jù)庫的兩種方式(同步和異步),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-02-02