Pandas對DataFrame單列/多列進(jìn)行運(yùn)算(map, apply, transform, agg)
1.單列運(yùn)算
在Pandas中,DataFrame的一列就是一個Series, 可以通過map來對一列進(jìn)行操作:
df['col2'] = df['col1'].map(lambda x: x**2)
其中l(wèi)ambda函數(shù)中的x代表當(dāng)前元素??梢允褂昧硗獾暮瘮?shù)來代替lambda函數(shù),例如:
define square(x): return (x ** 2) df['col2'] = df['col1'].map(square)
2.多列運(yùn)算
apply()會將待處理的對象拆分成多個片段,然后對各片段調(diào)用傳入的函數(shù),最后嘗試將各片段組合到一起。
要對DataFrame的多個列同時進(jìn)行運(yùn)算,可以使用apply,例如col3 = col1 + 2 * col2:
df['col3'] = df.apply(lambda x: x['col1'] + 2 * x['col2'], axis=1)
其中x帶表當(dāng)前行,可以通過下標(biāo)進(jìn)行索引。
示例2
In [44]: f = lambda x : x.max()-x.min() In [45]: df.apply(f) Out[45]: data1 5.042275 data2 1.967290 dtype: float64 In [46]: df.apply(f,axis=1) Out[46]: 0 2.810074 1 1.009774 2 0.537183 3 0.813714 4 1.750022 dtype: float64
applymap()
用DataFrame的applymap方法,可以將函數(shù)應(yīng)用到元素級的數(shù)據(jù)上。
In [47]: f = lambda x : x+1 In [48]: df.applymap(f) Out[48]: data1 data2 0 -1.332263 1.477812 1 0.284755 1.294528 2 0.066644 0.603827 3 1.757402 2.571117 4 3.710012 1.959990
Series也有一個元素級函數(shù)應(yīng)用的方法map
In [49]: df['data1'] Out[49]: 0 -2.332263 1 -0.715245 2 -0.933356 3 0.757402 4 2.710012 Name: data1, dtype: float64 In [50]: df['data1'].map(f) Out[50]: 0 -1.332263 1 0.284755 2 0.066644 3 1.757402 4 3.710012 Name: data1, dtype: float64
3.分組運(yùn)算
可以結(jié)合groupby與transform來方便地實(shí)現(xiàn)類似SQL中的聚合運(yùn)算的操作:
df['col3'] = df.groupby('col1')['col2'].transform(lambda x: (x.sum() - x) / x.count())
在transform函數(shù)中x.sum()與x.count()與SQL類似,計算的是當(dāng)前group中的和與數(shù)量,還可以將transform的結(jié)果作為一個一個映射來使用, 例如:
sumcount = df.groupby('col1')['col2'].transform(lambda x: x.sum() + x.count()) df['col1'].map(sumcount)
對col1進(jìn)行一個map,得到對應(yīng)的col2的運(yùn)算值。
4.聚合函數(shù)
結(jié)合groupby與agg實(shí)現(xiàn)SQL中的分組聚合運(yùn)算操作,需要使用相應(yīng)的聚合函數(shù):
df['col2'] = df.groupby('col1').agg({'col1':{'col1_mean': mean, 'col1_sum‘': sum}, 'col2': {'col2_count': count}})
上述代碼生成了col1_mean, col1_sum與col2_count列。
示例2
In [52]: df.agg(['mean','sum']) Out[52]: data1 data2 mean -0.102690 0.581455 sum -0.513449 2.907274
函數(shù) | 說明 |
---|---|
count | 分組中非Nan值的數(shù)量 |
sum | 非Nan值的和 |
mean | 非Nan值的平均值 |
median | 非Nan值的算術(shù)中間數(shù) |
std,var | 標(biāo)準(zhǔn)差、方差 |
min,max | 非Nan值的最小值和最大值 |
prob | 非Nan值的積 |
first,last | 第一個和最后一個非Nan值 |
到此這篇關(guān)于Pandas對DataFrame單列/多列進(jìn)行運(yùn)算(map, apply, transform, agg)的文章就介紹到這了,更多相關(guān)Pandas map apply transform agg內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
ptyhon實(shí)現(xiàn)sitemap生成示例
這篇文章主要介紹了ptyhon實(shí)現(xiàn)sitemap生成示例,需要的朋友可以參考下2014-03-03python dict.get()和dict[''key'']的區(qū)別詳解
下面小編就為大家?guī)硪黄猵ython dict.get()和dict['key']的區(qū)別詳解。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2016-06-06Python實(shí)現(xiàn)PS濾鏡的萬花筒效果示例
這篇文章主要介紹了Python實(shí)現(xiàn)PS濾鏡的萬花筒效果,結(jié)合實(shí)例形式分析了Python基于skimage模塊操作圖片實(shí)現(xiàn)PS濾鏡萬花筒效果的原理與相關(guān)操作技巧,需要的朋友可以參考下2018-01-01python requests模擬登陸github的實(shí)現(xiàn)方法
這篇文章主要介紹了python requests模擬登陸github的實(shí)現(xiàn)方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-12-12Python實(shí)現(xiàn)棧和隊列的簡單操作方法示例
這篇文章主要介紹了Python實(shí)現(xiàn)棧和隊列的簡單操作方法,結(jié)合實(shí)例形式詳細(xì)分析了Python棧和隊列的原理與簡單實(shí)現(xiàn)技巧,需要的朋友可以參考下2019-11-11Python函數(shù)中的不定長參數(shù)相關(guān)知識總結(jié)
今天給大家?guī)淼氖顷P(guān)于Python函數(shù)的相關(guān)知識,文章圍繞著Python不定長參數(shù)展開,文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下2021-06-06