Pandas?Groupby之在Python中匯總、聚合和分組數(shù)據(jù)的示例詳解
GroupBy是一個非常簡單的概念。我們可以創(chuàng)建一個類別分組,并對這些類別應(yīng)用一個函數(shù)。這是一個簡單的概念,但它是一種在數(shù)據(jù)科學(xué)中廣泛使用的非常有價值的技術(shù)。在真實的的數(shù)據(jù)科學(xué)項目中,您將處理大量數(shù)據(jù)并一遍又一遍地嘗試,因此為了提高效率,我們使用Groupby概念。Groupby概念非常重要,因為它能夠有效地匯總、聚合和分組數(shù)據(jù)。
匯總
匯總包括統(tǒng)計,描述數(shù)據(jù)幀中存在的所有數(shù)據(jù)。我們可以使用describe()方法總結(jié)數(shù)據(jù)框中的數(shù)據(jù)。此方法用于從數(shù)據(jù)幀中獲取min、max、sum、count值沿著該特定列的數(shù)據(jù)類型。
- describe():此方法詳細說明數(shù)據(jù)類型及其屬性。
dataframe_name.describe()
- unique():此方法用于從給定列中獲取所有唯一值。
dataframe[‘column_name].unique()
- nunique():這個方法類似于unique,但它會返回唯一值的計數(shù)。
dataframe_name[‘column_name].nunique()
- info():此命令用于獲取數(shù)據(jù)類型和列信息
- columns:此命令用于顯示數(shù)據(jù)框中存在的所有列名
示例:
# importing pandas as pd for using data frame import pandas as pd # creating dataframe with student details dataframe = pd.DataFrame({'id': [7058, 4511, 7014, 7033], 'name': ['sravan', 'manoj', 'aditya', 'bhanu'], 'Maths_marks': [99, 97, 88, 90], 'Chemistry_marks': [89, 99, 99, 90], 'telugu_marks': [99, 97, 88, 80], 'hindi_marks': [99, 97, 56, 67], 'social_marks': [79, 97, 78, 90], }) # display dataframe dataframe
# describing the data frame print(dataframe.describe()) print("-----------------------------") # finding unique values print(dataframe['Maths_marks'].unique()) print("-----------------------------") # counting unique values print(dataframe['Maths_marks'].nunique()) print("-----------------------------") # display the columns in the data frame print(dataframe.columns) print("-----------------------------") # information about dataframe print(dataframe.info())
聚合
聚合用于獲得數(shù)據(jù)幀中所有列或數(shù)據(jù)幀中特定列的均值、平均值、方差和標(biāo)準(zhǔn)差。
- sum():返回數(shù)據(jù)幀的和
dataframe[‘column].sum()
- mean():返回數(shù)據(jù)框中特定列的平均值
- std():返回該列的標(biāo)準(zhǔn)差。
- var():返回該列的方差
- min():返回列中的最小值
- max():返回列中的最大值
示例:
# importing pandas as pd for using data frame import pandas as pd # creating dataframe with student details dataframe = pd.DataFrame({'id': [7058, 4511, 7014, 7033], 'name': ['sravan', 'manoj', 'aditya', 'bhanu'], 'Maths_marks': [99, 97, 88, 90], 'Chemistry_marks': [89, 99, 99, 90], 'telugu_marks': [99, 97, 88, 80], 'hindi_marks': [99, 97, 56, 67], 'social_marks': [79, 97, 78, 90], }) # display dataframe dataframe
# getting all minimum values from # all columns in a dataframe print(dataframe.min()) print("-----------------------------------------") # minimum value from a particular # column in a data frame print(dataframe['Maths_marks'].min()) print("-----------------------------------------") # computing maximum values print(dataframe.max()) print("-----------------------------------------") # computing sum print(dataframe.sum()) print("-----------------------------------------") # finding count print(dataframe.count()) print("-----------------------------------------") # computing standard deviation print(dataframe.std()) print("-----------------------------------------") # computing variance print(dataframe.var())
分組
它用于通過使用groupby()方法對數(shù)據(jù)幀中的一個或多個列進行分組。Groupby主要是指涉及以下步驟中的一個或多個的過程:
- 拆分:這是一個通過對數(shù)據(jù)集應(yīng)用某些條件將數(shù)據(jù)拆分成組的過程。
- 應(yīng)用:它是一個過程,在這個過程中,我們將一個函數(shù)獨立地應(yīng)用于每個組
- 組合:這是一個在應(yīng)用groupby后將不同數(shù)據(jù)集組合在一起并生成數(shù)據(jù)結(jié)構(gòu)的過程
# importing pandas as pd for using data frame import pandas as pd # creating dataframe with student details dataframe = pd.DataFrame({'id': [7058, 4511, 7014, 7033], 'name': ['sravan', 'manoj', 'aditya', 'bhanu'], 'Maths_marks': [99, 97, 88, 90], 'Chemistry_marks': [89, 99, 99, 90], 'telugu_marks': [99, 97, 88, 80], 'hindi_marks': [99, 97, 56, 67], 'social_marks': [79, 97, 78, 90], }) # group by name print(dataframe.groupby('name').first()) print("---------------------------------") # group by name with social_marks sum print(dataframe.groupby('name')['social_marks'].sum()) print("---------------------------------") # group by name with maths_marks count print(dataframe.groupby('name')['Maths_marks'].count()) print("---------------------------------") # group by name with maths_marks print(dataframe.groupby('name')['Maths_marks'])
import pandas as pd # creating dataframe with student details dataframe = pd.DataFrame({'id': [7058, 4511, 7014, 7033], 'name': ['sravan', 'manoj', 'aditya', 'bhanu'], 'Maths_marks': [99, 97, 88, 90], 'Chemistry_marks': [89, 99, 99, 90], 'telugu_marks': [99, 97, 88, 80], 'hindi_marks': [99, 97, 56, 67], 'social_marks': [79, 97, 78, 90], }) # group by name print(dataframe.groupby('name').first()) print("------------------------") # group by name with social_marks sum print(dataframe.groupby('name')['social_marks'].sum()) print("------------------------") # group by name with maths_marks count print(dataframe.groupby('name')['Maths_marks'].count())
到此這篇關(guān)于Pandas Groupby之如何在Python中匯總、聚合和分組數(shù)據(jù)的文章就介紹到這了,更多相關(guān)Python匯總、聚合和分組數(shù)據(jù)內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python內(nèi)置函數(shù)delattr的具體用法
本篇文章主要介紹了Python內(nèi)置函數(shù)delattr的具體用法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-11-11TensorFlow2.X結(jié)合OpenCV 實現(xiàn)手勢識別功能
這篇文章主要介紹了TensorFlow2.X結(jié)合OpenCV 實現(xiàn)手勢識別功能,本文通過實例代碼給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-04-04Python通過keyboard庫實現(xiàn)模擬和監(jiān)聽鍵盤
這篇文章主要為大家詳細介紹了Python如何通過keyboard庫實現(xiàn)模擬和監(jiān)聽鍵盤,文中的示例代碼講解詳細,感興趣的小伙伴可以了解下2024-10-10