快捷導(dǎo)航

如何利用Python解析超大的json數(shù)據(jù)(GB級別)

更新時間：2022年07月26日 09:41:58 作者：超級宇宙無敵乖寶寶

果不想從頭開始創(chuàng)建數(shù)據(jù)格式來存儲數(shù)據(jù),JSON是一個不錯的選擇,下面這篇文章主要給大家介紹了關(guān)于如何利用Python解析超大的json數(shù)據(jù)(GB級別)的相關(guān)資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下

使用Python解析各種格式的數(shù)據(jù)都很方便，比如json、txt、xml、csv等。用于處理簡單的數(shù)據(jù)完全足夠用了，而且代碼簡單易懂。

前段時間我遇到一個問題，如何解析超大的json文件呢？剛開始天真的我在使用json.load直接加載json文件，然而內(nèi)存報錯卻給了我當(dāng)頭一棒，json.load它是直接將數(shù)據(jù)加載到內(nèi)存中然后解析出來的，這說明什么呢？當(dāng)你的json文件過于龐大的時候，你的電腦內(nèi)存裝不下你的json文件，這時候就相當(dāng)尷尬了，加載不了，解析不了??！

怎么辦呢？我趕緊上網(wǎng)查閱資料，網(wǎng)上大部份資料都是基于分塊的思路解決超大數(shù)據(jù)文件的解析的，比如read函數(shù)可以一塊一塊加載，像這樣read(1024)每次讀取1024字節(jié)，總能將數(shù)據(jù)讀取完的。或者是readline函數(shù)，每次讀取一行，這個函數(shù)的讀取方式特別適合txt、csv文件。然而這樣的函數(shù)對于json格式的數(shù)據(jù)就完全不適用了，因為json格式的文件是有嚴(yán)格的結(jié)構(gòu)的。你不可能一塊一塊的或者一行一行的讀取，噢不對，你可以這樣讀取，但是你這樣讀取出來的數(shù)據(jù)是完全沒有意義的，因為無法解析，你無法獲得你想要的數(shù)據(jù)。

塊讀取的方式不行，那該怎么辦呢，流式讀取唄，這時候我想起了萬能的GitHub，上去Github搜索python json parser。看看我發(fā)現(xiàn)了什么?。?！

啊，太棒了，光看簡介基于python的迭代的json解析器，我感覺我的問題可能要被解決掉了。

果不其然，ijson完美的解決了我的問題，它抽取了json文件的特征形成了一個生成器的東西，下面舉一個實例。

{
 ?"earth": {
 ? ?"europe": [
 ? ?  {
 ? ? ? ?"name": "Paris",
 ? ? ? ?"type": "city",
 ? ? ? ?"info": "aaa"
 ? ?  },
 ? ?  {
 ? ? ? ?"name": "Thames",
 ? ? ? ?"type": "river",
 ? ? ? ?"info": "sss"
 ? ?  },
 ? ?  {
 ? ? ? ?"name": "yyy",
 ? ? ? ?"type": "city",
 ? ? ? ?"info": "aaa"
 ? ?  },
 ? ?  {
 ? ? ? ?"name": "eee",
 ? ? ? ?"type": "river",
 ? ? ? ?"info": "sss"
 ? ?  }
 ?  ],
 ? ?"america": [
 ? ?  {
 ? ? ? ?"name": "Texas",
 ? ? ? ?"type": "state",
 ? ? ? ?"info": "jjj"
 ? ?  }
 ?  ]
  }
}

這是一個簡單的json文件，用它來演示json的效果。

import ijson
?
with open('test.json', 'r', encoding='utf-8') as f:
 ? ?objects = ijson.items(f, 'earth.europe.item')
 ? ?#這個objects在這里就是相當(dāng)于一個生成器，可以調(diào)用next函數(shù)取它的下一個值
 ? ?while True:
 ? ? ? ?try:
 ? ? ? ? ? ?print(objects.__next__())
 ? ? ? ?except StopIteration as e:
 ? ? ? ? ? ?print("數(shù)據(jù)讀取完成")
 ? ? ? ? ? ?break

很好，接下來看一下效果如何。

{'name': 'Paris', 'type': 'city', 'info': 'aaa'}
{'name': 'Thames', 'type': 'river', 'info': 'sss'}
{'name': 'yyy', 'type': 'city', 'info': 'aaa'}
{'name': 'eee', 'type': 'river', 'info': 'sss'}
數(shù)據(jù)讀取完成

是不是很棒呢？

這樣不會出現(xiàn)內(nèi)存撐爆了的錯誤，因為它類似于生成器的方式流式讀取json數(shù)據(jù)，熟悉生成器的朋友應(yīng)該就很清楚了。

如果想要加速讀取解析json文件，可以加上threading多線程模塊。這里就不做演示了。

另外附上ijson模塊的文檔地址：https://pypi.org/project/ijson/文檔本人就看了一部分。更多的內(nèi)容沒有深入了解，有興趣的大佬可以深入研究下。

總結(jié)

到此這篇關(guān)于如何利用Python解析超大json數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python解析大json數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: