如何利用Python解析超大的json數(shù)據(jù)(GB級(jí)別)
使用Python解析各種格式的數(shù)據(jù)都很方便,比如json、txt、xml、csv等。用于處理簡(jiǎn)單的數(shù)據(jù)完全足夠用了,而且代碼簡(jiǎn)單易懂。
前段時(shí)間我遇到一個(gè)問(wèn)題,如何解析超大的json文件呢?剛開(kāi)始天真的我在使用json.load直接加載json文件,然而內(nèi)存報(bào)錯(cuò)卻給了我當(dāng)頭一棒,json.load它是直接將數(shù)據(jù)加載到內(nèi)存中然后解析出來(lái)的,這說(shuō)明什么呢?當(dāng)你的json文件過(guò)于龐大的時(shí)候,你的電腦內(nèi)存裝不下你的json文件,這時(shí)候就相當(dāng)尷尬了,加載不了,解析不了??!
怎么辦呢?我趕緊上網(wǎng)查閱資料,網(wǎng)上大部份資料都是基于分塊的思路解決超大數(shù)據(jù)文件的解析的,比如read函數(shù)可以一塊一塊加載,像這樣read(1024)每次讀取1024字節(jié),總能將數(shù)據(jù)讀取完的?;蛘呤?strong>readline函數(shù),每次讀取一行,這個(gè)函數(shù)的讀取方式特別適合txt、csv文件。然而這樣的函數(shù)對(duì)于json格式的數(shù)據(jù)就完全不適用了,因?yàn)?strong>json格式的文件是有嚴(yán)格的結(jié)構(gòu)的。你不可能一塊一塊的或者一行一行的讀取,噢不對(duì),你可以這樣讀取,但是你這樣讀取出來(lái)的數(shù)據(jù)是完全沒(méi)有意義的,因?yàn)闊o(wú)法解析,你無(wú)法獲得你想要的數(shù)據(jù)。
塊讀取的方式不行,那該怎么辦呢,流式讀取唄,這時(shí)候我想起了萬(wàn)能的GitHub,上去Github搜索python json parser??纯次野l(fā)現(xiàn)了什么?。?!
啊,太棒了,光看簡(jiǎn)介基于python的迭代的json解析器,我感覺(jué)我的問(wèn)題可能要被解決掉了。
果不其然,ijson完美的解決了我的問(wèn)題,它抽取了json文件的特征形成了一個(gè)生成器的東西,下面舉一個(gè)實(shí)例。
{ ?"earth": { ? ?"europe": [ ? ? { ? ? ? ?"name": "Paris", ? ? ? ?"type": "city", ? ? ? ?"info": "aaa" ? ? }, ? ? { ? ? ? ?"name": "Thames", ? ? ? ?"type": "river", ? ? ? ?"info": "sss" ? ? }, ? ? { ? ? ? ?"name": "yyy", ? ? ? ?"type": "city", ? ? ? ?"info": "aaa" ? ? }, ? ? { ? ? ? ?"name": "eee", ? ? ? ?"type": "river", ? ? ? ?"info": "sss" ? ? } ? ], ? ?"america": [ ? ? { ? ? ? ?"name": "Texas", ? ? ? ?"type": "state", ? ? ? ?"info": "jjj" ? ? } ? ] } }
這是一個(gè)簡(jiǎn)單的json文件,用它來(lái)演示json的效果。
import ijson ? with open('test.json', 'r', encoding='utf-8') as f: ? ?objects = ijson.items(f, 'earth.europe.item') ? ?#這個(gè)objects在這里就是相當(dāng)于一個(gè)生成器,可以調(diào)用next函數(shù)取它的下一個(gè)值 ? ?while True: ? ? ? ?try: ? ? ? ? ? ?print(objects.__next__()) ? ? ? ?except StopIteration as e: ? ? ? ? ? ?print("數(shù)據(jù)讀取完成") ? ? ? ? ? ?break
很好,接下來(lái)看一下效果如何。
{'name': 'Paris', 'type': 'city', 'info': 'aaa'}
{'name': 'Thames', 'type': 'river', 'info': 'sss'}
{'name': 'yyy', 'type': 'city', 'info': 'aaa'}
{'name': 'eee', 'type': 'river', 'info': 'sss'}
數(shù)據(jù)讀取完成
是不是很棒呢?
這樣不會(huì)出現(xiàn)內(nèi)存撐爆了的錯(cuò)誤,因?yàn)樗愃朴谏善鞯姆绞搅魇阶x取json數(shù)據(jù),熟悉生成器的朋友應(yīng)該就很清楚了。
如果想要加速讀取解析json文件,可以加上threading多線程模塊。這里就不做演示了。
另外附上ijson模塊的文檔地址:https://pypi.org/project/ijson/文檔本人就看了一部分。更多的內(nèi)容沒(méi)有深入了解,有興趣的大佬可以深入研究下。
總結(jié)
到此這篇關(guān)于如何利用Python解析超大json數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python解析大json數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- 使用python解析json字段的3種方式實(shí)例
- Python實(shí)現(xiàn)yaml與json文件批量互轉(zhuǎn)
- 關(guān)于Python中request發(fā)送post請(qǐng)求傳遞json參數(shù)的問(wèn)題
- Python中json模塊load/loads方法實(shí)戰(zhàn)以及參數(shù)詳解
- Python中使用json.load()和json.loads()加載json數(shù)據(jù)的方法實(shí)例
- python中Requests發(fā)送json格式的post請(qǐng)求方法
- python轉(zhuǎn)換wrf輸出的數(shù)據(jù)為網(wǎng)頁(yè)可視化json格式
相關(guān)文章
python實(shí)現(xiàn)堆排序的實(shí)例講解
在本篇文章里小編給大家分享的是一篇關(guān)于python實(shí)現(xiàn)堆排序的實(shí)例講解內(nèi)容,需要的朋友們可以學(xué)習(xí)參考下。2020-02-02用Python的Django框架編寫(xiě)從Google Adsense中獲得報(bào)表的應(yīng)用
這篇文章主要介紹了用Python的Django框架編寫(xiě)從Google Adsense中獲得報(bào)表的應(yīng)用,主要利用了官方的Google Adsense API,需要的朋友可以參考下2015-04-04python基礎(chǔ)教程之python消息摘要算法使用示例
這篇文章主要介紹了python中的消息摘要算法使用示例,需要的朋友可以參考下2014-02-02一文搞懂???????python可迭代對(duì)象,迭代器,生成器,協(xié)程
這篇文章主要介紹了一文搞懂???????python可迭代對(duì)象,迭代器,生成器,協(xié)程,微博吱嘎部分圍繞主題展開(kāi)詳細(xì)介紹,需要的小伙伴可以參考一下2022-05-05Python內(nèi)置數(shù)據(jù)結(jié)構(gòu)列表與元組示例詳解
這篇文章主要給大家介紹了關(guān)于Python內(nèi)置數(shù)據(jù)結(jié)構(gòu)列表與元組的相關(guān)資料,列表是順序存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu),類似于數(shù)據(jù)結(jié)構(gòu)中的順序表,在存儲(chǔ)上是相連的一大塊內(nèi)存空間,在物理和邏輯上都是連續(xù)的,需要的朋友可以參考下2021-08-08pytest接口測(cè)試之fixture傳參數(shù)request的使用
本文主要介紹了pytest接口測(cè)試之fixture傳參數(shù)request的使用,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-08-08