快捷導(dǎo)航

pandas?groupby?用法實(shí)例詳解

更新時(shí)間：2022年11月24日 09:48:31 作者：bitcarmanlee

在日常數(shù)據(jù)分析過程中，經(jīng)常有分組的需求。具體來說，就是根據(jù)一個(gè)或者多個(gè)字段，將數(shù)據(jù)劃分為不同的組，然后進(jìn)行進(jìn)一步分析，比如求分組的數(shù)量，分組內(nèi)的最大值最小值平均值等，下面我們就來看看pandas中的groupby怎么使用,需要的朋友可以參考下

1.分組groupby

在日常數(shù)據(jù)分析過程中，經(jīng)常有分組的需求。具體來說，就是根據(jù)一個(gè)或者多個(gè)字段，將數(shù)據(jù)劃分為不同的組，然后進(jìn)行進(jìn)一步分析，比如求分組的數(shù)量，分組內(nèi)的最大值最小值平均值等。在sql中，就是大名鼎鼎的groupby操作。
pandas中，也有對(duì)應(yīng)的groupby操作，下面我們就來看看pandas中的groupby怎么使用。

2.groupby的數(shù)據(jù)結(jié)構(gòu)

首先我們看如下代碼

def ddd():
    levels = ["L1", "L1", "L1", "L2", "L2", "L3", "L3"]
    nums = [10, 20, 30, 20, 15, 10, 12]
    df = pd.DataFrame({"level": levels, "num": nums})
    g = df.groupby('level')
    print(g)
    print()
    print(list(g))

輸出結(jié)果如下：

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x10f6f96d0>

[('L1', level num
0 L1 10
1 L1 20
2 L1 30), ('L2', level num
3 L2 20
4 L2 15), ('L3', level num
5 L3 10
6 L3 12)]

做groupby操作以后，得到的是一個(gè)DataFrameGroupBy對(duì)象，直接打印該對(duì)象的話，顯示的是其內(nèi)存地址。
為了方便地觀察數(shù)據(jù)，我們使用list方法轉(zhuǎn)換一下，發(fā)現(xiàn)其是一個(gè)元組，元組中的第一個(gè)元素，是level的值。元祖中的第二個(gè)元素，則是其組別下的整個(gè)dataframe。

3.groupby的基本用法

def group1():
    levels = ["L1", "L1", "L1", "L2", "L2", "L3", "L3"]
    nums = [10, 20, 30, 20, 15, 10, 12]
    scores = [100, 200, 300, 200, 150, 100, 120]
    df = pd.DataFrame({"level": levels, "num": nums, "score": scores})
    result = df.groupby('level').agg({'num': 'sum', 'score': 'mean'})
    allnum = result['num'].sum()
    result['rate'] = result['num'].map(lambda x: x / allnum)
    print(result)

最后輸出：

num score rate
level
L1 60 200 0.512821
L2 35 175 0.299145
L3 22 110 0.188034

上面的例子展示了groupby的基本用法。
對(duì)dataframe按照level分組，然后對(duì)num列求和，對(duì)score列求平均值，可以得到result。
同時(shí)，我們還希望得到每個(gè)分組中，num的和在所有num和中的占比。于是我們先求num的綜合，然后在用map方法，給result添加一列，求得其占比！

4.transform的用法

下面我們看一個(gè)更復(fù)雜的例子。

def t10():
    levels = ["L1", "L1", "L1", "L2", "L2", "L3", "L3"]
    nums = [10, 20, 30, 20, 15, 10, 12]
    df = pd.DataFrame({"level": levels, "num": nums})
    ret = df.groupby('level')['num'].mean().to_dict()
    df['avg_num'] = df['level'].map(ret)
    print(ret)
    print(df)

{'L1': 20.0, 'L2': 17.5, 'L3': 11.0}
  level  num  avg_num
0    L1   10     20.0
1    L1   20     20.0
2    L1   30     20.0
3    L2   20     17.5
4    L2   15     17.5
5    L3   10     11.0
6    L3   12     11.0

上面的方法，我們對(duì)level分組以后，我們想給數(shù)據(jù)集添加一列，想給每行數(shù)據(jù)添加每個(gè)level對(duì)應(yīng)的平均值。
上面的解法是先求得每個(gè)分組的平均值，轉(zhuǎn)成一個(gè)dict，然后再使用map方法將每組的平均值添加上去。

def trans():
    levels = ["L1", "L1", "L1", "L2", "L2", "L3", "L3"]
    nums = [10, 20, 30, 20, 15, 10, 12]
    df = pd.DataFrame({"level": levels, "num": nums})
    df['avg_num'] = df.groupby('level')['num'].transform('mean')
    print(df)

如果使用transform方法，代碼可以更簡(jiǎn)單更直觀，如上所示。

transform方法的作用：調(diào)用函數(shù)在每個(gè)分組上產(chǎn)生一個(gè)與原df相同索引的dataFrame，整體返回與原來對(duì)象擁有相同索引且已填充了轉(zhuǎn)換后的值的dataFrame，相當(dāng)于就是給原來的dataframe添加了一列。

到此這篇關(guān)于pandas groupby 用法詳解的文章就介紹到這了,更多相關(guān)pandas groupby 用法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: