關于python處理大型json文件的方法
如圖所示,要處理的數(shù)據(jù)是一個json數(shù)組,而且非常大

下圖為電腦配置,使用 json.load() 方法加載上述json文件電腦直接卡死

解決思路:
先用python進行預處理,即一整個json數(shù)據(jù)加載慢,那就分開加載,每次加載一個json對象,然后使用 json.dumps()方法 存儲到txt中,方便讀取。當然也可以存儲到內存中,根據(jù)情況而定。
算法思想:因為 json 是一種結構化的數(shù)據(jù),所以 {} 是成對存在的。因為使用逐行讀取的方法讀入json文件,所以根據(jù) {} 的數(shù)量來判斷是否讀取了一個完整的json對象,如果是完整的,則使用 json.dumps()方法 存儲到txt中。
getUsefullData(temp + line,id)這個方法是提取自己需要的數(shù)據(jù)
def jsonProcess(fileName,round):
id = 1
with open(fileName, 'r', encoding='utf-8') as f,open('../tempData/tempFile'+str(round)+'.txt','w') as tempFile:
line = f.readline()
line = f.readline()
temp = ''
khNum = 0
id = 1
while line:
# print(line)
if line.find('{') != -1:
khNum += 1
if line.find('}') != -1:
khNum -= 1
if khNum == 0:
line = line.replace(',','')
data = getUsefullData(temp + line,id)
id += 1
if len(data) > 1:
# print(data)
try:
tempFile.write(json.dumps(data)+'\n')
except 'json.decoder.JSONDecodeError':
break
temp = ''
line = f.readline()
continue
temp += line
line = f.readline()讀取方法:
with open('../tempData/tempFile'+str(round)+'.txt') as f:
dataList = f.readlines()
# 解析保存好的list
for data in dataList:
data = json.loads(data)到此這篇關于python處理大型json文件的方法的文章就介紹到這了,更多相關python處理大型json文件內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python快速進修指南之向量數(shù)據(jù)庫文本搜索
這篇文章主要為大家介紹了Java開發(fā)快速進修Python指南之向量數(shù)據(jù)庫文本搜索,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2024-01-01
pytorch DataLoader的num_workers參數(shù)與設置大小詳解
這篇文章主要介紹了pytorch DataLoader的num_workers參數(shù)與設置大小詳解,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-05-05
python列表推導式實現(xiàn)找出列表中長度大于5的名字
這篇文章主要介紹了python列表推導式實現(xiàn)找出列表中長度大于5的名字,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-02-02

