pandas group分組與agg聚合的實例
如下:
import pandas as pd df = pd.DataFrame({'Country':['China','China', 'India', 'India', 'America', 'Japan', 'China', 'India'], 'Income':[10000, 10000, 5000, 5002, 40000, 50000, 8000, 5000], 'Age':[5000, 4321, 1234, 4010, 250, 250, 4500, 4321]})
構(gòu)造的數(shù)據(jù)如下:
Age Country Income 0 5000 China 10000 1 4321 China 10000 2 1234 India 5000 3 4010 India 5002 4 250 America 40000 5 250 Japan 50000 6 4500 China 8000 7 4321 India 5000
分組
單列分組
df_gb = df.groupby('Country') for index, data in df_gb: print(index) print(data)
輸出
America Age Country Income 4 250 America 40000 China Age Country Income 0 5000 China 10000 1 4321 China 10000 6 4500 China 8000 India Age Country Income 2 1234 India 5000 3 4010 India 5002 7 4321 India 5000 Japan Age Country Income 5 250 Japan 50000
多列分組
df_gb = df.groupby(['Country', 'Income']) for (index1, index2), data in df_gb: print((index1, index2)) print(data)
輸出
('America', 40000) Age Country Income 4 250 America 40000 ('China', 8000) Age Country Income 6 4500 China 8000 ('China', 10000) Age Country Income 0 5000 China 10000 1 4321 China 10000 ('India', 5000) Age Country Income 2 1234 India 5000 7 4321 India 5000 ('India', 5002) Age Country Income 3 4010 India 5002 ('Japan', 50000) Age Country Income 5 250 Japan 50000
聚合
對分組后數(shù)據(jù)進行聚合
默認情況對分組之后其他列進行聚合
df_agg = df.groupby('Country').agg(['min', 'mean', 'max']) print(df_agg)
輸出
Age Income min mean max min mean max Country America 250 250.000000 250 40000 40000.000000 40000 China 4321 4607.000000 5000 8000 9333.333333 10000 India 1234 3188.333333 4321 5000 5000.666667 5002 Japan 250 250.000000 250 50000 50000.000000 50000
對分組后的部分列進行聚合
某些情況,只需要對部分數(shù)據(jù)進行不同的聚合操作,可以通過字典來構(gòu)建
num_agg = {'Age':['min', 'mean', 'max']} print(df.groupby('Country').agg(num_agg))
輸出
Age min mean max Country America 250 250.000000 250 China 4321 4607.000000 5000 India 1234 3188.333333 4321 Japan 250 250.000000 250 num_agg = {'Age':['min', 'mean', 'max'], 'Income':['min', 'max']} print(df.groupby('Country').agg(num_agg))
輸出
Age Income min mean max min max Country America 250 250.000000 250 40000 40000 China 4321 4607.000000 5000 8000 10000 India 1234 3188.333333 4321 5000 5002 Japan 250 250.000000 250 50000 50000
補充:pandas——很全的groupby、agg,對表格數(shù)據(jù)分組與統(tǒng)計
我這篇groupby寫的不好。太復(fù)雜了。其實實際上經(jīng)常用的就那么幾個。舉個例子,把常用的往那一放就很容易理解和拿來用了。日后再寫一篇。
groupby功能:分組
groupby + agg(聚集函數(shù)們): 分組后,對各組應(yīng)用一些函數(shù),如'sum',‘mean',‘max',‘min'…
groupby默認縱方向上分組,axis=0
DataFrame import pandas as pd import numpy as np
df = pd.DataFrame({'key1':['a', 'a', 'b', 'b', 'a'], 'key2':['one', 'two', 'one', 'two', 'one'], 'data1':np.random.randn(5), 'data2':np.random.randn(5)}) print(df)
data1 data2 key1 key2 0 -0.410122 0.247895 a one 1 -0.627470 -0.989268 a two 2 0.179488 -0.054570 b one 3 -0.299878 -1.640494 b two 4 -0.297191 0.954447 a one
分組,并對分組進行迭代
list(df.groupby(['key1']))#list后得到:[(group1),(group2),......]
[('a', data1 data2 key1 key2 0 -0.410122 0.247895 a one 1 -0.627470 -0.989268 a two 4 -0.297191 0.954447 a one), ('b', data1 data2 key1 key2 2 0.179488 -0.054570 b one 3 -0.299878 -1.640494 b two)]
list后得到:[(group1),(group2),…]
每個數(shù)據(jù)片(group)格式: (name,group)元組
1. 按key1(一個列)分組,其實是按key1的值
groupby對象支持迭代,產(chǎn)生一組二元元組:(分組名,數(shù)據(jù)塊),(分組名,數(shù)據(jù)塊)…
for name,group in df.groupby(['key1']): print(name) print(group)
a data1 data2 key1 key2 0 -0.410122 0.247895 a one 1 -0.627470 -0.989268 a two 4 -0.297191 0.954447 a one b data1 data2 key1 key2 2 0.179488 -0.054570 b one 3 -0.299878 -1.640494 b two
2. 按[key1, key2](多個列)分組
對于多重鍵,產(chǎn)生的一組二元元組:((k1,k2),數(shù)據(jù)塊),((k1,k2),數(shù)據(jù)塊)…
第一個元素是由鍵值組成的元組
for name,group in df.groupby(['key1','key2']): print(name) #name=(k1,k2) print(group)
('a', 'one') data1 data2 key1 key2 0 -0.410122 0.247895 a one 4 -0.297191 0.954447 a one ('a', 'two') data1 data2 key1 key2 1 -0.62747 -0.989268 a two ('b', 'one') data1 data2 key1 key2 2 0.179488 -0.05457 b one ('b', 'two') data1 data2 key1 key2 3 -0.299878 -1.640494 b two
3. 按函數(shù)分組
4. 按字典分組
5. 按索引級別分組
6.將函數(shù)跟數(shù)組、列表、字典、Series混合使用也不是問題,因為任何東西最終都會被轉(zhuǎn)換為數(shù)組
將這些數(shù)據(jù)片段做成字典
dict(list(df.groupby(['key1'])))#dict(list())
{'a': data1 data2 key1 key2 0 -0.410122 0.247895 a one 1 -0.627470 -0.989268 a two 4 -0.297191 0.954447 a one, 'b': data1 data2 key1 key2 2 0.179488 -0.054570 b one 3 -0.299878 -1.640494 b two}
分組后進行一些統(tǒng)計、計算等
1. 分組后,返回一個含有分組大小的Series
按key1分組
df.groupby(['key1']).size()
key1 a 3 b 2 dtype: int64
dict(['a1','x2','e3']) {'a': '1', 'e': '3', 'x': '2'}
按[key1,key2]分組
df.groupby(['key1','key2']).size()
key1 key2 a one 2 two 1 b one 1 two 1 dtype: int64
2. 對data1按key1進行分組,并計算data1列的平均值
df['data1'].groupby(df['key1']).mean() #groupby沒有進行任何的計算。它只是進行了一個分組
key1 a -0.444928 b -0.060195 Name: data1, dtype: float64
df.groupby(['key1'])['data1'].mean()#理解:對df按key1分組,并計算分組后df['data1']的均值 #等價于:df.groupby(['key1']).data1.mean()
key1 a -0.444928 b -0.060195 Name: data1, dtype: float64
說明:
groupby沒有進行任何的計算。它只是進行了一個分組。
數(shù)據(jù)(Series)根據(jù)分組鍵進行了聚合,產(chǎn)生了一個新的Series,其索引為key1列中的唯一值。
這種索引操作所返回的對象是一個已分組的DataFrame(如果傳入的是列表或數(shù)組)或已分組的Series
df.groupby(['key1'])['data1'].size()
key1 a 3 b 2 Name: data1, dtype: int64
3.對data1按[key1,key2]進行分組,并計算data1的平均值
df['data1'].groupby([df['key1'],df['key2']]).mean()
key1 key2 a one -0.353657 two -0.627470 b one 0.179488 two -0.299878 Name: data1, dtype: float64
df.groupby(['key1','key2'])['data1'].mean() #等價于:df.groupby(['key1','key2']).data1'.mean()
key1 key2 a one -0.353657 two -0.627470 b one 0.179488 two -0.299878 Name: data1, dtype: float64
通過兩個鍵對數(shù)據(jù)進行了分組,得到的Series具有一個層次化索引(由唯一的鍵對組成):
df.groupby(['key1','key2'])['data1'].mean().unstack()
key2 | one | two |
---|---|---|
key1 | ||
a | -0.353657 | -0.627470 |
b | 0.179488 | -0.299878 |
在上面這些示例中,分組鍵均為Series。實際上,分組鍵可以是任何長度適當?shù)臄?shù)組。非常靈活。
橫方向上
按列的數(shù)據(jù)類型(df.dtypes)來分
df共兩種數(shù)據(jù)類型:float64和object,所以會分為兩組(dtype(‘float64'),數(shù)據(jù)片),(dtype(‘O'), 數(shù)據(jù)片)
list(df.groupby(df.dtypes, axis=1))
[(dtype('float64'), data1 data2 0 -0.410122 0.247895 1 -0.627470 -0.989268 2 0.179488 -0.054570 3 -0.299878 -1.640494 4 -0.297191 0.954447), (dtype('O'), key1 key2 0 a one 1 a two 2 b one 3 b two 4 a one)]
agg的應(yīng)用
groupby+agg 可以對groupby的結(jié)果同時應(yīng)用多個函數(shù)
SeriesGroupBy的方法agg()參數(shù):
aggregate(self, func_or_funcs, * args, ** kwargs) func: function, string, dictionary, or list of string/functions
返回:aggregated的Series
s= pd.Series([10,20,30,40]) s
0 10 1 20 2 30 3 40 dtype: int64
for n,g in s.groupby([1,1,2,2]): print(n) print(g)
0 10 1 20 dtype: int64 2 2 30 3 40 dtype: int64
s.groupby([1,1,2,2]).min() 1 1 10 2 30 dtype: int64
#等價于這個: s.groupby([1,1,2,2]).agg('min')
1 10 2 30 dtype: int64
s.groupby([1,1,2,2]).agg(['min','max'])#加[],func僅接受一個參數(shù)
min | max | |
---|---|---|
1 | 10 | 20 |
2 | 30 | 40 |
常常這樣用:
df
data1 | data2 | key1 | key2 | |
---|---|---|---|---|
0 | -0.410122 | 0.247895 | a | one |
1 | -0.627470 | -0.989268 | a | two |
2 | 0.179488 | -0.054570 | b | one |
3 | -0.299878 | -1.640494 | b | two |
4 | -0.297191 | 0.954447 | a | one |
比較下面,可以看出agg的用處:
df.groupby(['key1'])['data1'].min()
key1 a -0.627470 b -0.299878 Name: data1, dtype: float64
df.groupby(['key1'])['data1'].agg({'min'})
min | |
---|---|
key1 | |
a | -0.627470 |
b | -0.299878 |
#推薦用這個√ df.groupby(['key1']).agg({'data1':'min'})#對data1列,取各組的最小值,名字還是data1
data1 | |
---|---|
key1 | |
a | -0.627470 |
b | -0.299878 |
#按key1分組后,aggregate各組data1的最小值和最大值: df.groupby(['key1'])['data1'].agg({'min','max'})
max | min | |
---|---|---|
key1 | ||
a | -0.297191 | -0.627470 |
b | 0.179488 | -0.299878 |
#推薦用這個√ df.groupby(['key1']).agg({'data1':['min','max']})
data1 | ||
---|---|---|
min | max | |
key1 | ||
a | -0.627470 | -0.297191 |
b | -0.299878 | 0.179488 |
可以對groupby的結(jié)果更正列名(不推薦用這個,哪怕在后面單獨更改列名)
# 對data1,把min更名為a,max更名為b df.groupby(['key1'])['data1'].agg({'a':'min','b':'max'})#這里的'min' 'max'為兩個函數(shù)名
d:\python27\lib\site-packages\ipykernel_launcher.py:2: FutureWarning: using a dict on a Series for aggregation is deprecated and will be removed in a future version
a | b | |
---|---|---|
key1 | ||
a | -0.627470 | -0.297191 |
b | -0.299878 | 0.179488 |
重要技巧: groupby之后直接.reset_index()可以得到一個沒有多級索引的DataFrame
之后可以通過df.rename({‘old_col1':‘new_col1',‘old_col2':‘new_col2',…})重命名
eg:
df1= df.groupby(['date'])['price'].agg({'sum','count'}).reset_index()
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
scrapy數(shù)據(jù)存儲在mysql數(shù)據(jù)庫的兩種方式(同步和異步)
這篇文章主要介紹了scrapy數(shù)據(jù)存儲在mysql數(shù)據(jù)庫的兩種方式(同步和異步),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-02-02在Python中構(gòu)建增廣矩陣的實現(xiàn)方法
今天小編就為大家分享一篇在Python中構(gòu)建增廣矩陣的實現(xiàn)方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07一篇教程教你學會Python進制轉(zhuǎn)換(十進制轉(zhuǎn)二進制、八進制、十六進制)
計算機中只有1和0,所以就導(dǎo)致很多時候需要進制轉(zhuǎn)換,本文介紹了Python進制轉(zhuǎn)換,十進制轉(zhuǎn)二進制,十進制轉(zhuǎn)八進制,十進制轉(zhuǎn)十六進制,有興趣的可以了解一下2021-05-05python DataFrame獲取行數(shù)、列數(shù)、索引及第幾行第幾列的值方法
下面小編就為大家分享一篇python DataFrame獲取行數(shù)、列數(shù)、索引及第幾行第幾列的值方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-04-04