欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python Pandas模塊實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)分析的方法

 更新時(shí)間:2021年06月24日 16:11:29   作者:夏俊欣  
在上一篇講了幾個(gè)常用的“Pandas”函數(shù)之后,今天小編就為大家介紹一下在數(shù)據(jù)統(tǒng)計(jì)分析當(dāng)中經(jīng)常用到的“Pandas”函數(shù)方法,希望能對(duì)大家有所收獲,需要的朋友可以參考下

一、groupby函數(shù)

Python中的groupby函數(shù),它主要的作用是進(jìn)行數(shù)據(jù)的分組以及分組之后的組內(nèi)的運(yùn)算,也可以用來(lái)探索各組之間的關(guān)系,首先我們導(dǎo)入我們需要用到的模塊

import pandas as pd

首先導(dǎo)入我們所需要用到的數(shù)據(jù)集

customer = pd.read_csv("Churn_Modelling.csv")
marketing = pd.read_csv("DirectMarketing.csv")

我們先從一個(gè)簡(jiǎn)單的例子著手來(lái)看,

customer[['Geography','Gender','EstimatedSalary']].groupby(['Geography','Gender']).mean()

從上面的結(jié)果可以得知,在“法國(guó)”這一類(lèi)當(dāng)中的“女性(Female)”這一類(lèi)的預(yù)估工資的平均值達(dá)到了99564歐元,“男性”達(dá)到了100174歐元

當(dāng)然除了求平均數(shù)之外,我們還有其他的統(tǒng)計(jì)方式,比如“count”、“min”、“max”等等,例如下面的代碼

customer[['Geography','Gender','EstimatedSalary']].groupby(['Geography','Gender']).agg(['mean','count','max'])

當(dāng)然我們也可以對(duì)不同的列采取不同的統(tǒng)計(jì)方式方法,例如

customer[['Geography','EstimatedSalary','Balance']].groupby('Geography').agg({'EstimatedSalary':'sum', 'Balance':'mean'})

我們對(duì)“EstimatedSalary”這一列做了加總的操作,而對(duì)“Balance”這一列做了求平均值的操作

二、Crosstab函數(shù)

在處理數(shù)據(jù)時(shí),經(jīng)常需要對(duì)數(shù)據(jù)分組計(jì)算均值或者計(jì)數(shù),在Microsoft Excel中,可以通過(guò)透視表輕易實(shí)現(xiàn)簡(jiǎn)單的分組運(yùn)算。而對(duì)于更加復(fù)雜的分組計(jì)算,“Pandas”模塊中的“Crosstab”函數(shù)也能夠幫助我們實(shí)現(xiàn)。

例如我們想要計(jì)算不同年齡階段、不同性別的平均工資,同時(shí)保留一位小數(shù),代碼如下

pd.crosstab(index=marketing.Age, columns=marketing.Gender, values=marketing.Salary, aggfunc='mean').round(1)

當(dāng)然我們還可以用該函數(shù)來(lái)制作一個(gè)更加復(fù)雜一點(diǎn)的透視表,例如下面的代碼

pd.crosstab(index=[marketing.Age, marketing.Married], columns=marketing.Gender,values=marketing.Salary, aggfunc='mean', margins=True).round(1)

三、Pivot_table函數(shù)

和上面的“Cross_tab”函數(shù)的功能相類(lèi)似,對(duì)于數(shù)據(jù)透視表而言,由于它的靈活性高,可以隨意定制你的分析計(jì)算要求,而且操作性強(qiáng),因此在實(shí)際的工作生活當(dāng)中被廣泛使用,

例如下面的代碼,參數(shù)“margins”對(duì)應(yīng)表格當(dāng)中的“All”這一列

pd.pivot_table(data=marketing, index=['Age', 'Married'], columns='Gender', values='Salary', aggfunc='mean', margins=True).round(1)

四、Sidetable函數(shù)

“Sidetable”可以被理解為是“Pandas”模塊中的第三方的插件,它集合了制作透視表以及對(duì)數(shù)據(jù)集做統(tǒng)計(jì)分析等功能,讓我們來(lái)實(shí)際操作一下吧

首先我們要下載安裝這個(gè)“Sidetable”組件,

pip install sidetable

五、Freq函數(shù)

首先介紹的是“Sidetable”插件當(dāng)中的“Freq”函數(shù),里面包含了離散值每個(gè)類(lèi)型的數(shù)量,其中是有百分比形式來(lái)呈現(xiàn)以及數(shù)字的形式來(lái)呈現(xiàn),還有離散值每個(gè)類(lèi)型的累加總和的呈現(xiàn),具體大家看下面的代碼和例子

import sidetable
marketing.stb.freq(['Age'])

“Age”這一列有三大類(lèi)分別是“Middle”、“Young”以及“Old”的數(shù)據(jù),例如我們看到表格當(dāng)中的“Middle”這一列的數(shù)量有508個(gè),占比有50.8%

marketing.stb.freq(['Age'], value='AmountSpent')

例如上面的代碼,顯示的則是比方說(shuō)當(dāng)“Age”是“Middle”的時(shí)候,也就是中年群體,“AmountSpent”的總和,也就是花費(fèi)的總和是762859元

六、Missing函數(shù)

“Sidetable”函數(shù)當(dāng)中的“Missing”方法顧名思義就是返回缺失值的數(shù)量以及百分比,例如下面的代碼,“History”這一列的缺失值占到了30.3%

marketing.stb.missing()

七、Counts函數(shù)

“Sidetable”函數(shù)當(dāng)中的“counts”方法用來(lái)計(jì)算各個(gè)類(lèi)型的離散值出現(xiàn)的數(shù)量,具體看下面的例子

marketing.stb.counts()

例如“Gender”這一列中,總共有兩個(gè),也就是“unique”這一列所代表的值,其中“Female”占到的比重更大,有506個(gè),而“Male”占到的比重更小一些,有494個(gè)

到此這篇關(guān)于Python Pandas模塊實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)分析的方法的文章就介紹到這了,更多相關(guān)Pandas模塊實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)分析內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 詳解Django+Uwsgi+Nginx 實(shí)現(xiàn)生產(chǎn)環(huán)境部署

    詳解Django+Uwsgi+Nginx 實(shí)現(xiàn)生產(chǎn)環(huán)境部署

    這篇文章主要介紹了詳解Django+Uwsgi+Nginx 實(shí)現(xiàn)生產(chǎn)環(huán)境部署,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-11-11
  • 理解python正則表達(dá)式

    理解python正則表達(dá)式

    這篇文章主要介紹了python正則表達(dá)式,在python中,對(duì)正則表達(dá)式的支持是通過(guò)re模塊來(lái)支持的,想要了解python正則表達(dá)式的朋友可以參考一下
    2016-01-01
  • Python集中化管理平臺(tái)Ansible介紹與YAML簡(jiǎn)介

    Python集中化管理平臺(tái)Ansible介紹與YAML簡(jiǎn)介

    這篇文章主要介紹了Python集中化管理平臺(tái)Ansible介紹與YAML,簡(jiǎn)單說(shuō)明了集中化管理平臺(tái)Ansible的功能與YAML語(yǔ)言的基本語(yǔ)法與基本使用技巧,需要的朋友可以參考下
    2019-06-06
  • Python 手動(dòng)導(dǎo)包的實(shí)現(xiàn)

    Python 手動(dòng)導(dǎo)包的實(shí)現(xiàn)

    本文主要介紹了Python 手動(dòng)導(dǎo)包的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2023-03-03
  • Django MTV和MVC的區(qū)別詳解

    Django MTV和MVC的區(qū)別詳解

    這篇文章主要介紹了Django MTV和MVC的區(qū)別詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-03-03
  • ?分享一個(gè)Python?遇到數(shù)據(jù)庫(kù)超好用的模塊

    ?分享一個(gè)Python?遇到數(shù)據(jù)庫(kù)超好用的模塊

    這篇文章主要介紹了?分享一個(gè)Python?遇到數(shù)據(jù)庫(kù)超好用的模塊,SQLALchemy這個(gè)模塊,該模塊是Python當(dāng)中最有名的ORM框架,該框架是建立在數(shù)據(jù)庫(kù)API之上,使用關(guān)系對(duì)象映射進(jìn)行數(shù)據(jù)庫(kù)的操作,,需要的朋友可以參考下
    2022-04-04
  • Python爬取十篇新聞統(tǒng)計(jì)TF-IDF

    Python爬取十篇新聞統(tǒng)計(jì)TF-IDF

    這篇文章主要為大家詳細(xì)介紹了Python爬取十篇新聞統(tǒng)計(jì)TF-IDF的相關(guān)資料,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-01-01
  • python創(chuàng)建線(xiàn)程示例

    python創(chuàng)建線(xiàn)程示例

    這篇文章主要介紹了python創(chuàng)建線(xiàn)程示例,需要的朋友可以參考下
    2014-05-05
  • 通過(guò)Python實(shí)現(xiàn)控制手機(jī)詳解

    通過(guò)Python實(shí)現(xiàn)控制手機(jī)詳解

    如今python是非常多人學(xué)習(xí)的,而手機(jī)也幾乎人手一部。對(duì)于很多Python學(xué)習(xí)者,想用python來(lái)完成android手機(jī)中各種炫酷的的控制,adb是必不可缺少的工具之一
    2021-10-10
  • 淺析Python?WSGI的使用

    淺析Python?WSGI的使用

    WSGI也稱(chēng)之為web服務(wù)器通用網(wǎng)關(guān)接口,全稱(chēng)是web?server?gateway?interface。這篇文章主要為大家介紹了Python?WSGI的使用,希望對(duì)大家有所幫助
    2023-04-04

最新評(píng)論