快捷導(dǎo)航

pandas提升計(jì)算效率的一些方法匯總

更新時(shí)間：2021年05月30日 12:18:22 作者：rs_gis

理解 pandas 的函數(shù)，要對(duì)函數(shù)式編程有一定的概念和理解，下面這篇文章主要給大家介紹了關(guān)于pandas提升計(jì)算效率的相關(guān)資料，需要的朋友可以參考下

前言

Pandas是為一次性處理整個(gè)行或列的矢量化操作而設(shè)計(jì)的，循環(huán)遍歷每個(gè)單元格、行或列并不是它的設(shè)計(jì)用途。所以，在使用Pandas時(shí)，你應(yīng)該考慮高度可并行化的矩陣運(yùn)算。

一、避免使用for循環(huán)

盡量使用列號(hào)或者行號(hào)進(jìn)行矩陣檢索，避免使用for循環(huán)。

1.1使用for循環(huán)

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'
def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()
a = read_csv(path)
for i in range(10000):
    b = a.iloc[i]
end_time = datetime.datetime.now()

print(end_time-start_time)

耗時(shí)：0:00:02.455211

1.2使用行號(hào)檢索

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

b = a.iloc[10000]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時(shí)：0:00:00.464756

二、使用for循環(huán)的條件下提高效率

2.0 如果必須使用for循環(huán)如何提高效率

我們可以做的最簡(jiǎn)單但非常有價(jià)值的加速是使用Pandas的內(nèi)置 .iterrows() 函數(shù)。

在上一節(jié)中編寫for循環(huán)時(shí)，我們使用了 range() 函數(shù)。然而，當(dāng)我們?cè)赑ython中對(duì)大范圍的值進(jìn)行循環(huán)時(shí)，生成器往往要快得多。

Pandas的 .iterrows() 函數(shù)在內(nèi)部實(shí)現(xiàn)了一個(gè)生成器函數(shù)，該函數(shù)將在每次迭代中生成一行Dataframe。更準(zhǔn)確地說，.iterrows() 為DataFrame中的每一行生成(index, Series)的對(duì)（元組）。這實(shí)際上與在原始Python中使用 enumerate() 之類的東西是一樣的，但運(yùn)行速度要快得多！

生成器（Generators）
生成器函數(shù)允許你聲明一個(gè)行為類似迭代器的函數(shù)，也就是說，它可以在for循環(huán)中使用。這大大簡(jiǎn)化了代碼，并且比簡(jiǎn)單的for循環(huán)更節(jié)省內(nèi)存。

當(dāng)你想要處理一個(gè)龐大的列表時(shí)，比如10億個(gè)浮點(diǎn)數(shù)，問題就出現(xiàn)了。使用for循環(huán)，在內(nèi)存中創(chuàng)建了大量的內(nèi)存huge列表，并不是每個(gè)人都有無限的RAM來存儲(chǔ)這樣的東西！

生成器將創(chuàng)建元素時(shí)，僅在需要時(shí)將它們存儲(chǔ)在內(nèi)存中。一次一個(gè)。這意味著，如果必須創(chuàng)建10億個(gè)浮點(diǎn)數(shù)，那么只能一次將它們存儲(chǔ)在內(nèi)存中。Python中的range()函數(shù)使用生成器來構(gòu)建列表。

也就是說，如果你想多次迭代列表并且它足夠小以適應(yīng)內(nèi)存，那么使用for循環(huán)和range函數(shù)會(huì)更好。這是因?yàn)槊看卧L問list值時(shí)，生成器和range都會(huì)重新生成它們，而range是一個(gè)靜態(tài)列表，并且內(nèi)存中已存在整數(shù)以便快速訪問。

2.1使用range

import os
import pandas as pd
import datetime

path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for data_row in range(a.shape[0]):
    b = a.iloc[data_row]

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時(shí):0:00:07.642816

2.2使用 .iterrows() 代替 range

import os
import pandas as pd
import datetime
path = r'E:\科研文件\shiyan\LZQ\LZQ_all_sampledata.csv'

def read_csv(target_csv):
    target = pd.read_csv(path,header=None,sep=',')
    return target

start_time = datetime.datetime.now()

a = read_csv(path)

for index,data_row in a.iterrows():
    b = data_row

end_time = datetime.datetime.now()

print(end_time-start_time)

耗時(shí)：0:00:03.513161