欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較

 更新時(shí)間:2021年04月07日 09:51:46   作者:fatjimmy  
這篇文章主要介紹了淺談Pandas dataframe數(shù)據(jù)處理方法的速度比較,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧

數(shù)據(jù)修改主要以增刪改差為主,這里比較幾種寫法在數(shù)據(jù)處理時(shí)間上的巨大差別。

數(shù)據(jù)量大概是500萬行級(jí)別的數(shù)據(jù),文件大小為100M。

1.iloc

iloc是一種速度極其慢的寫法。這里我們對(duì)每個(gè)csv文件中的每一行循環(huán)再用iloc處理,示例代碼如下:

for index in range(len(df)):
   df.iloc['attr'][index] = xxx

使用這種方法對(duì)五百萬行的數(shù)據(jù)進(jìn)行處理大概需要5個(gè)小時(shí),實(shí)在是很慢。

2.at

at相比于iloc有了很大的性能提升,也是for循環(huán)處理,示例代碼如下:

for i in range(len(df)):
  if df.at[i,'attr'] > 0:
    sum_positive += df.at[i,'attr']
  else:
    sum_negetive += df.at[i,'sttr']

在我的程序里at和iloc是可以通用的,用at,程序的速度會(huì)有大幅提高,大概10分鐘,但是還不夠。

3.apply(lambda x:...)

想說apply是因?yàn)槲矣X得for循環(huán)速度太慢,想在循環(huán)上對(duì)程序進(jìn)行優(yōu)化。然后網(wǎng)上有人說apply可以大幅度提升速度,然而經(jīng)過測(cè)試發(fā)現(xiàn)在我的程序里,使用apply和for差不多吧,性能也一般。

4.直接用series處理

這才是真正優(yōu)化for循環(huán)的方法,以上面at的程序?yàn)槔梢愿膶憺椋?/p>

sum_positive += df['attr'][df.attr > 0].sum()
sum_negative += df['attr'][df.attr < 0].sum()

將程序都改為series處理,快了很多,最后500萬行的數(shù)據(jù)大概需要37秒能跑完,基本符合預(yù)期。

這里提兩句關(guān)于dataframe屬性篩選,也就是上面df.attr > 0這一部分。首先pandas這個(gè)屬性篩選實(shí)在是很強(qiáng)大,很方便。

其次是我們屬性篩選的時(shí)候不要去修改屬性,而是修改后面的數(shù)字,比如,我們不要這樣寫:

float(df.attr )> 0,而是這樣寫:

df.attr > str(0),因?yàn)閐f.attr作為屬性是不能隨便動(dòng)的。

補(bǔ)充:pandas中DataFrame單個(gè)數(shù)據(jù)提取效率與修改效率

目標(biāo)

使用pandas處理金融數(shù)據(jù)及建模中經(jīng)常需要按時(shí)間序列順序循DataFrame數(shù)據(jù),讀取具體位置的數(shù)據(jù)判斷或修改。經(jīng)驗(yàn)上這種操作要比直接對(duì)二維列表或者np.array格式數(shù)據(jù)慢的多,原因可能在于index及columns層次的查找(兩個(gè)字典,都不是連續(xù)數(shù)組,每次查找定位都需要時(shí)間)和DataFrame中數(shù)據(jù)的內(nèi)存布局,有機(jī)會(huì)以后再深入研究。

這里做一組數(shù)值實(shí)驗(yàn)對(duì)比幾種方法的效率。

生成數(shù)據(jù)

先生成一個(gè)二維數(shù)組隨機(jī)數(shù)作為DataFrame數(shù)據(jù),不失一般性,并把列名、行名設(shè)為標(biāo)記順序的字符串。

import numpy as np
import pandas as pd

from copy import deepcopy
from time import time

np.random.seed(20000)
I = 900
df = pd.DataFrame(np.random.standard_normal((I, I)),
   columns=['c'+str(_) for _ in range(I)],
         index=['i'+str(_) for _ in range(I)])

然后從限定范圍內(nèi)隨機(jī)生成取值位置,為了方便對(duì)比,把隨機(jī)坐標(biāo)與字符串名對(duì)應(yīng)起來

columns_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)
index_num = np.floor(np.random.uniform(0, 1, I) * I).astype(int)

columns_str = ['c'+str(_) for _ in columns_num]
index_str = ['i'+str(_) for _ in index_num]

讀取測(cè)試

首先傳統(tǒng)方法,直接取columns及index中名稱定位

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df[m][n]
print(time()-t0)

6.789840459823608

先columns列名后在values中取行坐標(biāo),速度快了一些

t0 = time()
for m in columns_str:
  for n in index_num:
    c = df[m].values[n]
print(time()-t0)

1.9697318077087402

loc方法,速度和直接取columns及index中名稱定位差不多

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.loc[n, m]
print(time()-t0)

5.661889314651489

at方法,比loc快一點(diǎn),畢竟loc可以切片的

t0 = time()
for m in columns_str:
  for n in index_str:
    c = df.at[m, n]
print(time()-t0)

3.3770089149475098

假設(shè)知道具體橫縱坐標(biāo)后,我們?cè)俦容^:

還是從取values開始,也很慢,看來每次從df中取values很耗時(shí)

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.values[n][m]
print(time()-t0)

6.041872024536133

iloc試一下,沒什么區(qū)別

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iloc[n, m]
print(time()-t0)

6.103677034378052

iat做對(duì)比,提升不大,有點(diǎn)失望

t0 = time()
for m in columns_num:
  for n in index_num:
    c = df.iat[n, m]
print(time()-t0)

4.375299692153931

最后最高效的方法,還是先取二維數(shù)組來再定位

t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.6402544975280762

修改測(cè)試

重復(fù)剛才的過程,把對(duì)應(yīng)值改為0作為簡(jiǎn)單測(cè)試方式,別忘了原始數(shù)據(jù)要備份

取columns及index中名稱定位

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup[m][n] = 0.0
print(time()-t0)

41.99269938468933

先columns列名后在values中取行坐標(biāo)

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_num:
    df_backup[m].values[n] = 0.0
print(time()-t0)

2.215076208114624

loc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.loc[n, m] = 0.0
print(time()-t0)

134.39290761947632

at方法,在修改數(shù)值上竟然比loc快這么多

df_backup = deepcopy(df)
t0 = time()
for m in columns_str:
  for n in index_str:
    df_backup.at[n, m] = 0.0
print(time()-t0)

4.7453413009643555

在values上改,也是不錯(cuò)的,和讀取相近,看來還都是在每次提取values上耗時(shí)

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.values[n][m] = 0.0
print(time()-t0)

6.346027612686157

iloc方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iloc[n, m] = 0.0
print(time()-t0)

122.33384037017822

iat方法

df_backup = deepcopy(df)
t0 = time()
for m in columns_num:
  for n in index_num:
    df.iat[n, m] = 0.0
print(time()-t0)

5.381632328033447

取二維數(shù)組來再定位

df_backup = deepcopy(df)
t0 = time()
b = df.values
for m in columns_num:
  for n in index_num:
    c = b[n][m]
print(time()-t0)

0.4298992156982422

總結(jié)

效率上肯定是直接取數(shù)值最優(yōu)的,這次系統(tǒng)性比較做個(gè)記錄。代碼寫的有點(diǎn)啰嗦了,不過方便復(fù)制實(shí)驗(yàn)。在建模級(jí)別的代碼上我還是習(xí)慣于用第2種方法,主要是鑒于代碼可讀性、維護(hù)和修改上。代碼會(huì)在key上告訴我這里是什么,直觀易讀。

以前也曾為了提高代碼運(yùn)行效率寫過先提取二維數(shù)組的,但columns多了就很費(fèi)勁,重讀還需要轉(zhuǎn)譯一遍。當(dāng)然也可以把數(shù)據(jù)寫成類,但是感覺和pandas不好融合,從建模和研究效率上沒有太好的解決方案。之后會(huì)找時(shí)間再研究DataFrame內(nèi)部機(jī)制。

以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。

相關(guān)文章

  • Python標(biāo)準(zhǔn)庫(kù)sched模塊使用指南

    Python標(biāo)準(zhǔn)庫(kù)sched模塊使用指南

    這篇文章主要介紹了Python標(biāo)準(zhǔn)庫(kù)sched模塊使用的相關(guān)資料,需要的朋友可以參考下
    2017-07-07
  • Python機(jī)器學(xué)習(xí)應(yīng)用之基于決策樹算法的分類預(yù)測(cè)篇

    Python機(jī)器學(xué)習(xí)應(yīng)用之基于決策樹算法的分類預(yù)測(cè)篇

    所謂決策樹,就是一個(gè)類似于流程圖的樹形結(jié)構(gòu),樹內(nèi)部的每一個(gè)節(jié)點(diǎn)代表的是對(duì)一個(gè)特征的測(cè)試,樹的分支代表該特征的每一個(gè)測(cè)試結(jié)果,而樹的每一個(gè)葉子節(jié)點(diǎn)代表一個(gè)類別。樹的最高層是就是根節(jié)點(diǎn)
    2022-01-01
  • Python中random模塊常用方法的使用教程

    Python中random模塊常用方法的使用教程

    這篇文章主要給大家介紹了關(guān)于Python中random模塊常用方法的使用教程,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • Python中的迭代器與生成器使用及說明

    Python中的迭代器與生成器使用及說明

    這篇文章主要介紹了Python中的迭代器與生成器使用及說明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-12-12
  • Python3的socket使用方法詳解

    Python3的socket使用方法詳解

    這篇文章主要介紹了Python3的socket使用方法詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-02-02
  • PyTorch實(shí)現(xiàn)模型剪枝的方法

    PyTorch實(shí)現(xiàn)模型剪枝的方法

    剪枝是一種優(yōu)化模型的技術(shù),可以幫助減少模型的大小和計(jì)算量,同時(shí)保持模型的準(zhǔn)確性,本文主要介紹了PyTorch實(shí)現(xiàn)模型剪枝的方法,具有一定的參考價(jià)值,感興趣的可以了解一下
    2024-04-04
  • Python圖像處理之直線和曲線的擬合與繪制【curve_fit()應(yīng)用】

    Python圖像處理之直線和曲線的擬合與繪制【curve_fit()應(yīng)用】

    這篇文章主要介紹了Python圖像處理之直線和曲線的擬合與繪制,結(jié)合實(shí)例形式分析了Python曲線擬合相關(guān)函數(shù)curve_fit()的使用技巧,需要的朋友可以參考下
    2018-12-12
  • 用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具詳解

    用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具詳解

    這篇文章主要介紹了用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-07-07
  • Python利用docx模塊實(shí)現(xiàn)快速操作word文件

    Python利用docx模塊實(shí)現(xiàn)快速操作word文件

    這篇文章主要為大家詳細(xì)介紹了Python如何利用docx模塊實(shí)現(xiàn)快速操作word文件,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下
    2022-09-09
  • Python摳圖教程之使用OpenCV實(shí)現(xiàn)背景去除

    Python摳圖教程之使用OpenCV實(shí)現(xiàn)背景去除

    這篇文章主要給大家介紹了關(guān)于Python摳圖教程之使用OpenCV實(shí)現(xiàn)背景去除的相關(guān)資料,背景去除是在很多視覺應(yīng)用里的主要預(yù)處理步驟,文中通過代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2023-10-10

最新評(píng)論