欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

pandas數(shù)據(jù)聚合與分組運(yùn)算的實(shí)現(xiàn)

 更新時(shí)間:2023年01月19日 09:47:09   作者:CarveStone  
本文主要介紹了pandas數(shù)據(jù)聚合與分組運(yùn)算的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

數(shù)據(jù)聚合與分組運(yùn)算

對(duì)數(shù)據(jù)集進(jìn)行分組并對(duì)各組應(yīng)用一個(gè)函數(shù)(無(wú)論是聚合還是轉(zhuǎn)換),通常是數(shù)據(jù)分析工作中的重要環(huán)節(jié)。在將數(shù)據(jù)集加載、融合、準(zhǔn)備好之后,通常就是計(jì)算分組統(tǒng)計(jì)或生成透視表。pandas提供了一個(gè)靈活高效的gruopby功能,它使你能以一種自然的方式對(duì)數(shù)據(jù)集進(jìn)行切片、切塊、摘要等操作。

關(guān)系型數(shù)據(jù)庫(kù)和SQL(Structured Query Language,結(jié)構(gòu)化查詢語(yǔ)言)能夠如此流行的原因之一就是其能夠方便地對(duì)數(shù)據(jù)進(jìn)行連接、過(guò)濾、轉(zhuǎn)換和聚合。但是,像SQL這樣的查詢語(yǔ)言所能執(zhí)行的分組運(yùn)算的種類很有限。在本章中你將會(huì)看到,由于Python和pandas強(qiáng)大的表達(dá)能力,我們可以執(zhí)行復(fù)雜得多的分組運(yùn)算(利用任何可以接受pandas對(duì)象或NumPy數(shù)組的函數(shù))。

分組與聚合的原理

在Pandas中,分組是指使用特定的條件將原數(shù)據(jù)劃分為多個(gè)組,聚合在這里指的是,對(duì)每個(gè)分組中的數(shù)據(jù)執(zhí)行某些操作,最后將計(jì)算的結(jié)果進(jìn)行整合。

分組與聚合的過(guò)程大概分為以下三步:

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機(jī)制,建議將圖片保存下來(lái)直接上傳(img-1DcdPD1Z-1674035110873)(10數(shù)據(jù)聚合與分組運(yùn)算.assets/image-20210402111015748.png)]

通過(guò)groupby()方法將數(shù)據(jù)拆分成組

groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, **kwargs)

  • by:用于確定進(jìn)行分組的依據(jù)。
  • axis:表示分組軸的方向。
  • sort:表示是否對(duì)分組標(biāo)簽進(jìn)行排序,接收布爾值,默認(rèn)為True。

按列名進(jìn)行分組

# 通過(guò)列名進(jìn)行分組
import pandas as pd
df = pd.DataFrame({"key":['c','b','c','a','b','b','a','c','a'],
                "data":[2,4,6,8,10,1,14,16,19]
})
print(df)
'''
  key  data
0   c     2
1   b     4
2   c     6
3   a     8
4   b    10
5   b     1
6   a    14
7   c    16
8   a    19
'''
# 按照key列進(jìn)行分組
print(df.groupby(by='key'))
'''<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000000008216688>
'''
group_obj = df.groupby('key')
for i in group_obj:
    print(i)
'''
('a',   key  data
3   a     8
6   a    14
8   a    19)
('b',   key  data
1   b     4
4   b    10
5   b     1)
('c',   key  data
0   c     2
2   c     6
7   c    16)
'''

按Series對(duì)象進(jìn)行分組

如果Series對(duì)象與Pandas對(duì)象的索引長(zhǎng)度不相同時(shí),則只會(huì)將具有相同索引的部分?jǐn)?shù)據(jù)進(jìn)行分組

import numpy as np
import pandas as pd
df = pd.DataFrame({
    'key1':['A','A','B','B','A'],
    'key2':['one','two','one','two','one'],
    'data1':['2','3','4','6','8'],
    'data2':['3','5','6','3','7']
})
print(df)
'''
  key1 key2 data1 data2
0    A  one     2     3
1    A  two     3     5
2    B  one     4     6
3    B  two     6     3
4    A  one     8     7
'''
se = pd.Series(['a','b','c','a','b'])
print(se)
'''
0    a
1    b
2    c
3    a
4    b
dtype: object
'''
group_obj = df.groupby(se) # 定義series對(duì)象進(jìn)行分組
for i in group_obj:
    print(i)
'''
('a',   key  data
0   c     2
3   a     8)
('b',   key  data
1   b     4
4   b    10)
('c',   key  data
2   c     6)
'''

按字典進(jìn)行分組

可以將這個(gè)字典傳給groupby,來(lái)構(gòu)造數(shù)組

# 通過(guò)字典進(jìn)行分組
from pandas import DataFrame,Series
num_df = DataFrame({'a':[1,2,3,4,5],
                   'b':[6,7,8,9,10],
                   'c':[11,12,13,14,15],
                   'd':[5,4,3,2,1],
                   'e':[10,9,8,7,6]})
print(num_df)
'''
   a   b   c  d   e
0  1   6  11  5  10
1  2   7  12  4   9
2  3   8  13  3   8
3  4   9  14  2   7
4  5  10  15  1   6
'''
# 定義分組規(guī)則
mapping = {'a':'第一組','b':'第二組','c':'第一組','d':'第三組','e':'第二組'}
by_column = num_df.groupby(mapping, axis=1)
for i in by_column:
    print(i)
'''
('第一組',    a   c
0  1  11
1  2  12
2  3  13
3  4  14
4  5  15)
('第三組',    d
0  5
1  4
2  3
3  2
4  1)
('第二組',     b   e
0   6  10
1   7   9
2   8   8
3   9   7
4  10   6)
'''

按函數(shù)進(jìn)行分組

將函數(shù)作為分組鍵會(huì)更加靈活,任何一個(gè)被當(dāng)做分組鍵的函數(shù)都會(huì)在各個(gè)索引值上被調(diào)用一次,返回的值會(huì)被用作分組名稱。

使用內(nèi)置函數(shù)len進(jìn)行分組 groupby_obj = df.groupby(len)

比起使用字典或Series,使用Python函數(shù)是一種更原生的方法定義分組映射。任何被當(dāng)做分組鍵的函數(shù)都會(huì)在各個(gè)索引值上被調(diào)用一次,其返回值就會(huì)被用作分組名稱。你可以計(jì)算一個(gè)字符串長(zhǎng)度的數(shù)組,更簡(jiǎn)單的方法是傳入len函數(shù):

key_list = ['a', 'a', 'a', 'b', 'b']
num_df.groupby([len, key_list]).min()

到此這篇關(guān)于pandas數(shù)據(jù)聚合與分組運(yùn)算的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)pandas數(shù)據(jù)聚合與分組運(yùn)算內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python深度學(xué)習(xí)pytorch神經(jīng)網(wǎng)絡(luò)匯聚層理解

    Python深度學(xué)習(xí)pytorch神經(jīng)網(wǎng)絡(luò)匯聚層理解

    通常當(dāng)我們處理圖像時(shí),我們希望逐漸降低隱藏表示的空間分辨率,聚集信息,這樣隨著我們?cè)谏窠?jīng)網(wǎng)絡(luò)層疊的上升,每個(gè)神經(jīng)元對(duì)其敏感的感受野(輸入)就越大
    2021-10-10
  • 利用Python如何生成hash值示例詳解

    利用Python如何生成hash值示例詳解

    這篇文章主要給大家介紹了關(guān)于利用Python如何生成hash值的相關(guān)資料,并且給大家分享了利用Python一句話校驗(yàn)軟件哈希值的方法,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考借鑒,下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧。
    2017-12-12
  • python通過(guò)nmap掃描在線設(shè)備并嘗試AAA登錄(實(shí)例代碼)

    python通過(guò)nmap掃描在線設(shè)備并嘗試AAA登錄(實(shí)例代碼)

    這篇文章主要介紹了python通過(guò)nmap掃描在線設(shè)備并嘗試AAA登錄,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-12-12
  • 有關(guān)wxpython pyqt內(nèi)存占用問(wèn)題分析

    有關(guān)wxpython pyqt內(nèi)存占用問(wèn)題分析

    一直覺(jué)得wxpython占用內(nèi)存比較多,在工作中寫的一些小程序應(yīng)用,一對(duì)比其它的小程序,發(fā)現(xiàn)內(nèi)存相差確實(shí)有點(diǎn)大
    2014-06-06
  • python matlab庫(kù)簡(jiǎn)單用法講解

    python matlab庫(kù)簡(jiǎn)單用法講解

    在本篇文章里小編給大家整理了一篇關(guān)于python matlab庫(kù)簡(jiǎn)單用法講解內(nèi)容,有需要的朋友們可以學(xué)習(xí)下。
    2020-12-12
  • 深入解析opencv骨架提取的算法步驟

    深入解析opencv骨架提取的算法步驟

    這篇文章主要介紹了深入解析opencv骨架提取的算法步驟
    2022-05-05
  • centos6.5安裝python3.7.1之后無(wú)法使用pip的解決方案

    centos6.5安裝python3.7.1之后無(wú)法使用pip的解決方案

    今天小編就為大家分享一篇關(guān)于centos6.5安裝python3.7.1之后無(wú)法使用pip的解決方案,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧
    2019-02-02
  • 升級(jí)Python版本后anaconda navigator啟動(dòng)失敗解決方案(最新推薦)

    升級(jí)Python版本后anaconda navigator啟動(dòng)失敗解決方案(最新推薦)

    anaconda navigator啟動(dòng)失敗,尤其是重裝不解決問(wèn)題的,大概率是庫(kù)沖突,解決方法也很簡(jiǎn)單,只需要?jiǎng)h掉引起沖突的庫(kù),感興趣的朋友跟隨小編一起看看吧
    2023-11-11
  • 教你使用Pycharm配置遠(yuǎn)程Jupyter

    教你使用Pycharm配置遠(yuǎn)程Jupyter

    在pycharm里配置了遠(yuǎn)程的Python解釋器,然后在使用過(guò)程中,發(fā)現(xiàn)pycharm原來(lái)是可以使用Jupyter的文件,而且還可以配置遠(yuǎn)程的Jupyter環(huán)境,今天試了一下,一開始還是走了一些坑,今天梳理一下,需要的朋友可以參考下
    2022-05-05
  • Python庫(kù)skimage繪制二值圖像代碼實(shí)例

    Python庫(kù)skimage繪制二值圖像代碼實(shí)例

    這篇文章主要介紹了Python庫(kù)skimage繪制二值圖像代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-04-04

最新評(píng)論