快捷導(dǎo)航

Pandas加速代碼之避免使用for循環(huán)

更新時間：2021年05月30日 11:52:37 作者：QIML編輯部

如果你使用Python和Pandas進行數(shù)據(jù)分析,循環(huán)是不可避免要使用的。這篇文章主要給大家介紹了關(guān)于Pandas加速代碼之避免使用for循環(huán)的相關(guān)資料,需要的朋友可以參考下

前言

使用Pandas dataframe執(zhí)行數(shù)千甚至數(shù)百萬次計算仍然是一項挑戰(zhàn)。你不能簡單的將數(shù)據(jù)丟進去，編寫Python for循環(huán)，然后希望在合理的時間內(nèi)處理數(shù)據(jù)。

Pandas是為一次性處理整個行或列的矢量化操作而設(shè)計的，循環(huán)遍歷每個單元格、行或列并不是它的設(shè)計用途。所以，在使用Pandas時，你應(yīng)該考慮高度可并行化的矩陣運算。

本文將教你如何使用Pandas設(shè)計使用的方式，并根據(jù)矩陣運算進行思考。在此過程中，我們將向你展示一些實用的節(jié)省時間的技巧和竅門，這些技巧和技巧將使你的Pandas代碼比那些可怕的Python for循環(huán)更快地運行！

數(shù)據(jù)準備

在本文中，我們將使用經(jīng)典的鳶尾花數(shù)據(jù)集。

現(xiàn)在讓我們建立一個標準線，用Python for循環(huán)來測量我們的速度。我們將通過循環(huán)遍歷每一行來設(shè)置要在數(shù)據(jù)集上執(zhí)行的計算，然后測量整個操作的速度。這將為我們提供一個基準，以了解我們的新優(yōu)化對我們有多大幫助。

在上面的代碼中，我們創(chuàng)建了一個基本函數(shù)，它使用If-Else語句根據(jù)花瓣的長度選擇花的類。我們編寫了一個for循環(huán)，通過循環(huán)dataframe對每一行應(yīng)用函數(shù)，然后測量循環(huán)的總時間。

在i7-8700k計算機上，循環(huán)運行5次平均需要0.01345秒。

使用.iterrows()

我們可以做的最簡單但非常有價值的加速是使用Pandas的內(nèi)置 .iterrows() 函數(shù)。

在上一節(jié)中編寫for循環(huán)時，我們使用了 range() 函數(shù)。然而，當我們在Python中對大范圍的值進行循環(huán)時，生成器往往要快得多。

Pandas的 .iterrows() 函數(shù)在內(nèi)部實現(xiàn)了一個生成器函數(shù)，該函數(shù)將在每次迭代中生成一行Dataframe。更準確地說，.iterrows() 為DataFrame中的每一行生成(index, Series)的對（元組）。這實際上與在原始Python中使用 enumerate() 之類的東西是一樣的，但運行速度要快得多！

生成器（Generators）

生成器函數(shù)允許你聲明一個行為類似迭代器的函數(shù)，也就是說，它可以在for循環(huán)中使用。這大大簡化了代碼，并且比簡單的for循環(huán)更節(jié)省內(nèi)存。

考慮這樣一個例子，我們想把1到1000之間的所有數(shù)字加起來。下面代碼的第一部分說明了如何使用for循環(huán)來實現(xiàn)這一點。

如果列表很小，比如長度為1000，那就很好了。當你想要處理一個龐大的列表時，比如10億個浮點數(shù)，問題就出現(xiàn)了。使用for循環(huán)，在內(nèi)存中創(chuàng)建了大量的內(nèi)存huge列表，并不是每個人都有無限的RAM來存儲這樣的東西！Python中的range()函數(shù)也做同樣的事情，它在內(nèi)存中構(gòu)建列表

代碼的第(2)節(jié)演示了使用Python生成器對數(shù)字列表求和。生成器將創(chuàng)建元素并僅在需要時將它們存儲在內(nèi)存中。一次一個。這意味著，如果必須創(chuàng)建10億個浮點數(shù)，那么只能一次將它們存儲在內(nèi)存中。Python中的xrange()函數(shù)使用生成器來構(gòu)建列表。

也就是說，如果你想多次迭代列表并且它足夠小以適應(yīng)內(nèi)存，那么使用for循環(huán)和range函數(shù)會更好。這是因為每次訪問list值時，生成器和xrange都會重新生成它們，而range是一個靜態(tài)列表，并且內(nèi)存中已存在整數(shù)以便快速訪問。