快捷導(dǎo)航

Pandas數(shù)據(jù)分析之groupby函數(shù)用法實(shí)例詳解

更新時(shí)間：2022年10月08日 15:05:28 作者：Mr_Darcy8

這篇文章主要為大家介紹了Pandas數(shù)據(jù)分析之groupby函數(shù)用法實(shí)例詳解，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步，早日升職加薪

正文

今天本人在趕學(xué)校課程作業(yè)的時(shí)候突然發(fā)現(xiàn)groupby這個(gè)分組函數(shù)還是蠻有用的，有了這個(gè)分組之后你可以實(shí)現(xiàn)很多統(tǒng)計(jì)目標(biāo)。

當(dāng)然，最主要的是，他的使用非常簡單

本期我們以上期作業(yè)為例，單走一篇文章來看看這個(gè)函數(shù)可以實(shí)現(xiàn)哪些功能：

（本期需要準(zhǔn)備的行囊）：

jupyter notebook環(huán)境（anaconda自帶）
pandas第三方庫
numpy第三方庫（也許會用吧）
能運(yùn)行以上依賴的電腦和舒服的外設(shè)
一定的python基礎(chǔ)
需要是吃飽喝足的你，帶上能運(yùn)作的小腦瓜來繼續(xù)

一、了解groupby

這是一個(gè)函數(shù)，一般作用于dataframe上，有返回值，不改變原變量。輸出的是原dataframe按照傳入?yún)?shù)分組后的結(jié)果。

我們一通引入獲得了一個(gè)dataframe，按照“user”進(jìn)行了分組，發(fā)現(xiàn)得到的是一個(gè)dataframegroupby對象。這個(gè)對象內(nèi)部是什么呢？我們用遍歷循環(huán)來看看：

for i in f.groupby("user"):
    print(i)

發(fā)現(xiàn)這個(gè)對象內(nèi)部是一個(gè)個(gè)元組，每個(gè)元組的第一個(gè)元素是我們設(shè)定的分組依據(jù)的值

（例如這里我們設(shè)定的分組依據(jù)是user，這里第一個(gè)元組包含的是user為19500時(shí)的所有記錄，元組第一個(gè)元素就是19500）

而當(dāng)我們輸出元組里的第二個(gè)元素的時(shí)候，發(fā)現(xiàn)得到的是類似dataframe的結(jié)果

看前面user下面的數(shù)據(jù),整齊劃一,是不是？o(〃＾▽＾〃)o

二、數(shù)據(jù)文件簡介

文章中所用數(shù)據(jù)為某時(shí)段內(nèi)消費(fèi)者的行為數(shù)據(jù)。user為消費(fèi)者編號，brand為品牌編號，behavr為消費(fèi)者行為（0代表瀏覽，1代表購買，2代表收藏，3代表加入購物車。且允許存在不瀏覽直接購買的行為）

接下來我們要針對這些數(shù)據(jù)進(jìn)行處理，輸出一些有用的結(jié)果

三、求各個(gè)商品購買量

因?yàn)橐蠼y(tǒng)計(jì)的“購買”行為屬于behavr列中的某特殊值。很容易想到先用條件篩選選出所有購買的記錄，再用groupby按各個(gè)商品分類，再用size（）方法統(tǒng)計(jì)分組后每組的數(shù)量，以此輸出各個(gè)商品的購買量。