本文主要介紹了Pandas數(shù)據(jù)集的分塊讀取的實(shí)現(xiàn)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

一、直接用分塊方式讀取數(shù)據(jù)集文件（更直接）

分塊讀取數(shù)據(jù)集文件是指用read_xxx()方法讀取存儲(chǔ)數(shù)據(jù)的文件時(shí)采用分塊的方式，這里以.csv文件為例，在read_csv()中加入chunksize參數(shù)即可實(shí)現(xiàn)分塊讀?。?/p>

reader = pd.read_csv('某招聘網(wǎng)站數(shù)據(jù).csv', usecols = ['positionId', 'companyId', 'positionName', 'skillLables'],
                     chunksize=10)

此時(shí)，返回的reader不是DataFrame，而是一個(gè)可迭代對(duì)象（iteration），需要注意的是，這個(gè)可迭代對(duì)象不能用下標(biāo)訪問(wèn)。下面遍歷這個(gè)對(duì)象：

for r in reader:
    print(r)

遍歷結(jié)果如下圖所示：

這種分塊讀取方式比較直接，但是由于一開(kāi)始就定義了分塊大小，后續(xù)處理起來(lái)不夠靈活。因此提供了第二種讀取方法。

二、先將數(shù)據(jù)集讀取為可迭代對(duì)象，再分塊讀取（更靈活）

這種方法將數(shù)據(jù)集文件讀取為時(shí)可迭代對(duì)象不定義分塊，用分塊的方式讀取read_csv()方法返回的可迭代對(duì)象。實(shí)現(xiàn)第一步要在read_csv()方法中指定參數(shù)iterator為True：

reader = pd.read_csv('某招聘網(wǎng)站數(shù)據(jù).csv', usecols = ['positionId', 'companyId', 'positionName'],
                    iterator=True)

以下是用分塊方式遍歷reader，注意使用到的get_chunk()方法和里面的參數(shù)，參數(shù)定義分塊大小，可以靈活調(diào)節(jié)：

while True:
    try:
        print(reader.get_chunk(10))
    except StopIteration:
        break

總結(jié)

綜上所述，兩種方法都能用pandas實(shí)現(xiàn)數(shù)據(jù)的分塊讀取，對(duì)于數(shù)據(jù)量較大的數(shù)據(jù)集還是比較實(shí)用的。兩種方法的優(yōu)劣體現(xiàn)在直接性和靈活性上，可以根據(jù)實(shí)際需求自行選擇。

到此這篇關(guān)于Pandas數(shù)據(jù)集的分塊讀取的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Pandas數(shù)據(jù)集分塊讀取內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: