快捷導(dǎo)航

Pandas對(duì)DataFrame單列/多列進(jìn)行運(yùn)算(map, apply, transform, agg)

更新時(shí)間：2020年06月14日 11:49:54 作者：BlankSeed

這篇文章主要介紹了Pandas對(duì)DataFrame單列/多列進(jìn)行運(yùn)算(map, apply, transform, agg)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

1.單列運(yùn)算

在Pandas中，DataFrame的一列就是一個(gè)Series, 可以通過(guò)map來(lái)對(duì)一列進(jìn)行操作：

df['col2'] = df['col1'].map(lambda x: x**2)

其中l(wèi)ambda函數(shù)中的x代表當(dāng)前元素?？梢允褂昧硗獾暮瘮?shù)來(lái)代替lambda函數(shù)，例如：

define square(x): 
  return (x ** 2) 
 
df['col2'] = df['col1'].map(square)

2.多列運(yùn)算

apply()會(huì)將待處理的對(duì)象拆分成多個(gè)片段，然后對(duì)各片段調(diào)用傳入的函數(shù)，最后嘗試將各片段組合到一起。

要對(duì)DataFrame的多個(gè)列同時(shí)進(jìn)行運(yùn)算，可以使用apply，例如col3 = col1 + 2 * col2:

df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)

其中x帶表當(dāng)前行，可以通過(guò)下標(biāo)進(jìn)行索引。

示例2

In [44]: f = lambda x : x.max()-x.min()

In [45]: df.apply(f)
Out[45]:
data1  5.042275
data2  1.967290
dtype: float64

In [46]: df.apply(f,axis=1)
Out[46]:
0  2.810074
1  1.009774
2  0.537183
3  0.813714
4  1.750022
dtype: float64

applymap()

用DataFrame的applymap方法，可以將函數(shù)應(yīng)用到元素級(jí)的數(shù)據(jù)上。

In [47]: f = lambda x : x+1

In [48]: df.applymap(f)
Out[48]:
   data1   data2
0 -1.332263 1.477812
1 0.284755 1.294528
2 0.066644 0.603827
3 1.757402 2.571117
4 3.710012 1.959990

Series也有一個(gè)元素級(jí)函數(shù)應(yīng)用的方法map

In [49]: df['data1']
Out[49]:
0  -2.332263
1  -0.715245
2  -0.933356
3  0.757402
4  2.710012
Name: data1, dtype: float64

In [50]: df['data1'].map(f)
Out[50]:
0  -1.332263
1  0.284755
2  0.066644
3  1.757402
4  3.710012
Name: data1, dtype: float64

3.分組運(yùn)算

可以結(jié)合groupby與transform來(lái)方便地實(shí)現(xiàn)類似SQL中的聚合運(yùn)算的操作：

df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())

在transform函數(shù)中x.sum()與x.count()與SQL類似，計(jì)算的是當(dāng)前group中的和與數(shù)量，還可以將transform的結(jié)果作為一個(gè)一個(gè)映射來(lái)使用，例如：

sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count()) 
df['col1'].map(sumcount)

對(duì)col1進(jìn)行一個(gè)map，得到對(duì)應(yīng)的col2的運(yùn)算值。

4.聚合函數(shù)

結(jié)合groupby與agg實(shí)現(xiàn)SQL中的分組聚合運(yùn)算操作，需要使用相應(yīng)的聚合函數(shù)：

df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘': sum}, 'col2': {'col2_count': count}})

上述代碼生成了col1_mean, col1_sum與col2_count列。

示例2

In [52]: df.agg(['mean','sum'])
Out[52]:
     data1   data2
mean -0.102690 0.581455
sum -0.513449 2.907274

函數(shù)	說(shuō)明
count	分組中非Nan值的數(shù)量
sum	非Nan值的和
mean	非Nan值的平均值
median	非Nan值的算術(shù)中間數(shù)
std,var	標(biāo)準(zhǔn)差、方差
min,max	非Nan值的最小值和最大值
prob	非Nan值的積
first,last	第一個(gè)和最后一個(gè)非Nan值

到此這篇關(guān)于Pandas對(duì)DataFrame單列/多列進(jìn)行運(yùn)算(map, apply, transform, agg)的文章就介紹到這了,更多相關(guān)Pandas map apply transform agg內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: