深入解析pandas數(shù)據(jù)聚合和重組
介紹pandas數(shù)據(jù)聚合和重組的相關知識,僅供參考。
1GroupBy技術
1.1簡介
簡介:根據(jù)一個或多個鍵進行分組,每一組應用函數(shù),再進行合并
分組的鍵有多種形式:
- 列表或數(shù)組,長度與待分組的軸一樣
- 表示DataFrame某個列名的值
- 字典或Series,給出待分組軸上的值與分組名之間的對應關系
- 函數(shù),用于處理軸索引或索引中的各個標簽
實例:
import numpy as np import pandas as pd import matplotlib.pyplot as plt from pandas import Series,DataFrame df =DataFrame({'key1':list('aabba'),'key2':['one','two','one','two','one'],\ 'data1':np.random.randn(5),'data2':np.random.randn(5)}) #根據(jù)key1進行分組,并計算data1的均值。 #注意下面的方式,取出來進行分組,而不是在DataFrame中分組,這種方式很靈活 #可以看到這是一個GroupBy對象,具備了應用函數(shù)的基礎 #這個過程是將Series進行聚合,產生了新的Series grouped = df['data1'].groupby(df['key1']) print(grouped,'\n')
注:
取出來進行分組,而不是在DataFrame中分組分組鍵中的缺失值被排除在外 1.2對分組進行迭代
GroupBy對象支持迭代,可以產生一組二元元組(由分組名和數(shù)據(jù)塊組成)
groupby默認在axis=0上進行分組,但可以設置在任何軸上分組
1.3選取一個或一組列
對于由DataFrame產生的GroupBy對象,如果用一個或一組列名進行索引,可實現(xiàn)選取部分列進行聚合的目的,即下面語法效果相同。
1.4通過字典或Series進行分組
假設已經(jīng)知道列的分組方式,現(xiàn)在需要利用這個信息進行分組統(tǒng)計。
下面為groupby傳入一個已知信息的字典:
相當于將每一個列重設名,再按新的名字進行求和。
Series也有這樣的功能,被看作一個固定大小的映射,可以用Series作為分組鍵,pandas會自動檢查對齊。
1.5利用函數(shù)進行分組
將函數(shù)、數(shù)組、字典、Series混用也ok,因為最終都會轉換為數(shù)組
2數(shù)據(jù)聚合
2.1簡介
簡介:
這里的數(shù)據(jù)聚合是說任何能夠從數(shù)組產生標量值的過程常見的聚合運算都有就地計算數(shù)據(jù)集統(tǒng)計信息的優(yōu)化實現(xiàn)。當然不止這些,可以用自己定義的運算,還可以調用分組對象上已經(jīng)定義好的任何方法。
例:quantile可計算Series或DataFrame列的樣本分位數(shù)。
對于自己定義的聚合函數(shù),只需將其傳入aggregate或agg即可:
有些方法(describe)也可應用
自定義函數(shù)比經(jīng)過優(yōu)化的函數(shù)要慢得多,這是因為在構造中間分組數(shù)據(jù)塊時存在非常大的開銷(函數(shù)調用、數(shù)據(jù)重排等)
可使用的函數(shù):
2.1面向列的多函數(shù)應用
有時候需要對不同的列應用不同的函數(shù) ,或者對一列應用不同的函數(shù)
若傳入一組函數(shù)或函數(shù)名,得到的DataFrame列就會以相應的函數(shù)命名
上面有個問題就是列名是自動給出的,以函數(shù)名為列名,若傳入元組(name,function)組成的列表,就會自動將第一個元素作為列名
對兩列都應用functions:
得到的結果的列名是層次化索引,可以直接用外層索引選取數(shù)據(jù):
如果想對不同的列應用不同的函數(shù),具體的辦法是向agg傳入一個從列映射到函數(shù)的字典:
2.2以‘無索引’的方式返回聚合數(shù)據(jù)
到目前為止,示例中的聚合數(shù)據(jù)都是由唯一的分組鍵組成的索引(可能還是層次化的)
由于并不是總需要如此,可以向groupby傳入as_index = False禁用該功能
到此這篇關于pandas數(shù)據(jù)聚合和重組的文章就介紹到這了,更多相關pandas數(shù)據(jù)聚合內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python數(shù)據(jù)可視化之使用matplotlib繪制簡單圖表
這篇文章主要為大家詳細介紹了使用matplotlib繪制簡單圖表的方法,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助2022-03-03Python圖像的增強處理操作示例【基于ImageEnhance類】
這篇文章主要介紹了Python圖像的增強處理操作,結合實例形式分析了使用ImageEnhance類處理圖片的亮度、對比度、色度以及銳度等相關操作技巧,需要的朋友可以參考下2019-01-01python利用Appium實現(xiàn)自動控制移動設備并提取數(shù)據(jù)功能
這篇文章主要介紹了python利用Appium自動控制移動設備并提取數(shù)據(jù),本文以控制抖音app滑動并獲取抖音短視頻發(fā)布者為例,通過實例代碼給大家介紹的非常詳細,需要的朋友可以參考下2021-09-09Pandas對DataFrame單列/多列進行運算(map, apply, transform, agg)
這篇文章主要介紹了Pandas對DataFrame單列/多列進行運算(map, apply, transform, agg),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2020-06-06Python參數(shù)解析器configparser簡介
configparser是python自帶的配置參數(shù)解析器,可以用于解析.config文件中的配置參數(shù),ini文件中由sections(節(jié)點)-key-value組成,這篇文章主要介紹了Python參數(shù)解析器configparser,需要的朋友可以參考下2022-12-12Python FTP文件定時自動下載實現(xiàn)過程解析
這篇文章主要介紹了Python FTP文件定時自動下載實現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2019-11-11Python實現(xiàn)Keras搭建神經(jīng)網(wǎng)絡訓練分類模型教程
這篇文章主要介紹了Python實現(xiàn)Keras搭建神經(jīng)網(wǎng)絡訓練分類模型教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06