快捷導(dǎo)航

Pandas?Groupby之在Python中匯總、聚合和分組數(shù)據(jù)的示例詳解

更新時間：2023年07月24日 15:19:01 作者：吃肉的小饅頭

GroupBy是一個非常簡單的概念，我們可以創(chuàng)建一個類別分組，并對這些類別應(yīng)用一個函數(shù)，本文給大家介紹Pandas?Groupby之如何在Python中匯總、聚合和分組數(shù)據(jù)，感興趣的朋友跟隨小編一起看看吧

GroupBy是一個非常簡單的概念。我們可以創(chuàng)建一個類別分組，并對這些類別應(yīng)用一個函數(shù)。這是一個簡單的概念，但它是一種在數(shù)據(jù)科學(xué)中廣泛使用的非常有價值的技術(shù)。在真實(shí)的的數(shù)據(jù)科學(xué)項(xiàng)目中，您將處理大量數(shù)據(jù)并一遍又一遍地嘗試，因此為了提高效率，我們使用Groupby概念。Groupby概念非常重要，因?yàn)樗軌蛴行У貐R總、聚合和分組數(shù)據(jù)。

匯總

匯總包括統(tǒng)計，描述數(shù)據(jù)幀中存在的所有數(shù)據(jù)。我們可以使用describe（）方法總結(jié)數(shù)據(jù)框中的數(shù)據(jù)。此方法用于從數(shù)據(jù)幀中獲取min、max、sum、count值沿著該特定列的數(shù)據(jù)類型。

describe（）：此方法詳細(xì)說明數(shù)據(jù)類型及其屬性。

dataframe_name.describe()

unique（）：此方法用于從給定列中獲取所有唯一值。

dataframe[‘column_name].unique()

nunique（）：這個方法類似于unique，但它會返回唯一值的計數(shù)。

dataframe_name[‘column_name].nunique()

info（）：此命令用于獲取數(shù)據(jù)類型和列信息
columns：此命令用于顯示數(shù)據(jù)框中存在的所有列名

示例：

# importing pandas as pd for using data frame
import pandas as pd
# creating dataframe with student details
dataframe = pd.DataFrame({'id': [7058, 4511, 7014, 7033],
                          'name': ['sravan', 'manoj', 'aditya', 'bhanu'],
                          'Maths_marks': [99, 97, 88, 90],
                          'Chemistry_marks': [89, 99, 99, 90],
                          'telugu_marks': [99, 97, 88, 80],
                          'hindi_marks': [99, 97, 56, 67],
                          'social_marks': [79, 97, 78, 90], })
# display dataframe
dataframe

在這里插入圖片描述

# describing the data frame
print(dataframe.describe())
print("-----------------------------")
# finding unique values
print(dataframe['Maths_marks'].unique())
print("-----------------------------")
# counting unique values
print(dataframe['Maths_marks'].nunique())
print("-----------------------------")
# display the columns in the data frame
print(dataframe.columns)
print("-----------------------------")
# information about dataframe
print(dataframe.info())

在這里插入圖片描述

聚合

聚合用于獲得數(shù)據(jù)幀中所有列或數(shù)據(jù)幀中特定列的均值、平均值、方差和標(biāo)準(zhǔn)差。

sum（）：返回數(shù)據(jù)幀的和

dataframe[‘column].sum()

mean（）：返回數(shù)據(jù)框中特定列的平均值
std（）：返回該列的標(biāo)準(zhǔn)差。
var（）：返回該列的方差
min（）：返回列中的最小值
max（）：返回列中的最大值

示例：

# importing pandas as pd for using data frame
import pandas as pd
# creating dataframe with student details
dataframe = pd.DataFrame({'id': [7058, 4511, 7014, 7033],
                          'name': ['sravan', 'manoj', 'aditya', 'bhanu'],
                          'Maths_marks': [99, 97, 88, 90],
                          'Chemistry_marks': [89, 99, 99, 90],
                          'telugu_marks': [99, 97, 88, 80],
                          'hindi_marks': [99, 97, 56, 67],
                          'social_marks': [79, 97, 78, 90], })
# display dataframe
dataframe

在這里插入圖片描述

# getting all minimum values from
# all columns in a dataframe
print(dataframe.min())
print("-----------------------------------------")
# minimum value from a particular
# column in a data frame
print(dataframe['Maths_marks'].min())
print("-----------------------------------------")
# computing maximum values
print(dataframe.max())
print("-----------------------------------------")
# computing sum
print(dataframe.sum())
print("-----------------------------------------")
# finding count
print(dataframe.count())
print("-----------------------------------------")
# computing standard deviation
print(dataframe.std())
print("-----------------------------------------")
# computing variance
print(dataframe.var())

在這里插入圖片描述

分組

它用于通過使用groupby（）方法對數(shù)據(jù)幀中的一個或多個列進(jìn)行分組。Groupby主要是指涉及以下步驟中的一個或多個的過程：

拆分：這是一個通過對數(shù)據(jù)集應(yīng)用某些條件將數(shù)據(jù)拆分成組的過程。
應(yīng)用：它是一個過程，在這個過程中，我們將一個函數(shù)獨(dú)立地應(yīng)用于每個組
組合：這是一個在應(yīng)用groupby后將不同數(shù)據(jù)集組合在一起并生成數(shù)據(jù)結(jié)構(gòu)的過程

# importing pandas as pd for using data frame
import pandas as pd
# creating dataframe with student details
dataframe = pd.DataFrame({'id': [7058, 4511, 7014, 7033],
                          'name': ['sravan', 'manoj', 'aditya', 'bhanu'],
                          'Maths_marks': [99, 97, 88, 90],
                          'Chemistry_marks': [89, 99, 99, 90],
                          'telugu_marks': [99, 97, 88, 80],
                          'hindi_marks': [99, 97, 56, 67],
                          'social_marks': [79, 97, 78, 90], })
# group by name
print(dataframe.groupby('name').first())
print("---------------------------------")
# group by name with social_marks sum
print(dataframe.groupby('name')['social_marks'].sum())
print("---------------------------------")
# group by name with maths_marks count
print(dataframe.groupby('name')['Maths_marks'].count())
print("---------------------------------")
# group by name with maths_marks
print(dataframe.groupby('name')['Maths_marks'])

在這里插入圖片描述

import pandas as pd
# creating dataframe with student details
dataframe = pd.DataFrame({'id': [7058, 4511, 7014, 7033],
                          'name': ['sravan', 'manoj', 'aditya', 'bhanu'],
                          'Maths_marks': [99, 97, 88, 90],
                          'Chemistry_marks': [89, 99, 99, 90],
                          'telugu_marks': [99, 97, 88, 80],
                          'hindi_marks': [99, 97, 56, 67],
                          'social_marks': [79, 97, 78, 90], })
# group by name
print(dataframe.groupby('name').first())
print("------------------------")
# group by name with social_marks sum
print(dataframe.groupby('name')['social_marks'].sum())
print("------------------------")
# group by name with maths_marks count
print(dataframe.groupby('name')['Maths_marks'].count())

在這里插入圖片描述

到此這篇關(guān)于Pandas Groupby之如何在Python中匯總、聚合和分組數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python匯總、聚合和分組數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: