快捷導(dǎo)航

pandas分批讀取大數(shù)據(jù)集教程

更新時間：2020年06月06日 10:32:21 作者：htbeker

這篇文章主要介紹了pandas分批讀取大數(shù)據(jù)集教程，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

如果你的電腦內(nèi)存較小那么想在本地做一些事情是很有局限性的（哭喪臉），比如想拿一個kaggle上面的競賽來練練手，你會發(fā)現(xiàn)多數(shù)訓(xùn)練數(shù)據(jù)集都是大幾G或者幾十G的，自己那小破電腦根本跑不起來。行，你有8000w條樣本你牛逼，我就取400w條出來跑跑總行了吧（狡滑臉）。

下圖是2015年kaggle上一個CTR預(yù)估比賽的數(shù)據(jù)集：

看到train了吧，原始數(shù)據(jù)集6個G，特征工程后得多大？那我就取400w出來train。為了節(jié)省時間和完整介紹分批讀入數(shù)據(jù)的功能，這里以test數(shù)據(jù)集為例演示。其實就是使用pandas讀取數(shù)據(jù)集時加入?yún)?shù)chunksize。

可以通過設(shè)置chunksize大小分批讀入，也可以設(shè)置iterator=True后通過get_chunk選取任意行。

當(dāng)然將分批讀入的數(shù)據(jù)合并后就是整個數(shù)據(jù)集了。

ok了！

補(bǔ)充知識：用Pandas 處理大數(shù)據(jù)的3種超級方法

易上手，文檔豐富的Pandas 已經(jīng)成為時下最火的數(shù)據(jù)處理庫。此外，Pandas數(shù)據(jù)處理能力也一流。

其實無論你使用什么庫，大量的數(shù)據(jù)處理起來往往回遇到新的挑戰(zhàn)。

數(shù)據(jù)處理時，往往會遇到?jīng)]有足夠內(nèi)存（RAM）這個硬件問題。企業(yè)往往需要能夠存夠數(shù)百，乃至數(shù)千的GB 數(shù)據(jù)。

即便你的計算機(jī)恰好有足夠的內(nèi)存來存儲這些數(shù)據(jù)，但是讀取數(shù)據(jù)到硬盤依舊非常耗時。

別擔(dān)心！ Pandas 數(shù)據(jù)庫會幫我們擺脫這種困境。這篇文章包含3種方法來減少數(shù)據(jù)大小，并且加快數(shù)據(jù)讀取速度。我用這些方法，把超過100GB 的數(shù)據(jù)，壓縮到了64GB 甚至32GB 的內(nèi)存大小。

快來看看這三個妙招吧。

數(shù)據(jù)分塊

csv 格式是一種易儲存，易更改并且用戶易讀取的格式。 pandas 有read_csv ()方法來上傳數(shù)據(jù)，存儲為CSV 格式。當(dāng)遇到CSV 文件過大，導(dǎo)致內(nèi)存不足的問題該怎么辦呢？試試強(qiáng)大的pandas 工具吧！我們先把整個文件拆分成小塊。這里，我們把拆分的小塊稱為chunk。

一個chunk 就是我們數(shù)據(jù)的一個小組。 Chunk 的大小主要依據(jù)我們內(nèi)存的大小，自行決定。

過程如下：

1.讀取一塊數(shù)據(jù)。

2.分析數(shù)據(jù)。

3.保存該塊數(shù)據(jù)的分析結(jié)果。

4.重復(fù)1-3步驟，直到所有chunk 分析完畢。

5.把所有的chunk 合并在一起。

我們可以通過read_csv()方法Chunksize來完成上述步驟。 Chunksize是指pandas 一次能讀取到多少行csv文件。這個當(dāng)然也是建立在RAM 內(nèi)存容量的基礎(chǔ)上。
假如我們認(rèn)為數(shù)據(jù)呈現(xiàn)高斯分布時，我們可以在一個chunk 上，進(jìn)行數(shù)據(jù)處理和視覺化，這樣會提高準(zhǔn)確率。

當(dāng)數(shù)據(jù)稍微復(fù)雜時，例如呈現(xiàn)泊松分布時，我們最好能一塊塊篩選，然后把每一小塊整合在一起。然后再進(jìn)行分析。很多時候，我們往往刪除太多的不相關(guān)列，或者刪除有值行。我們可以在每個chunk 上，刪除不相關(guān)數(shù)據(jù)，然后再把數(shù)據(jù)整合在一起，最后再進(jìn)行數(shù)據(jù)分析。

代碼如下：