如何使用Python進(jìn)行數(shù)據(jù)分析之方差分析詳解
前言
大家好,方差分析可以用來判斷幾組觀察到的數(shù)據(jù)或者處理的結(jié)果是否存在顯著差異。本文介紹的方差分析(Analysis of Variance,簡(jiǎn)稱ANOVA)就是用于檢驗(yàn)兩組或者兩組以上樣本的均值是否具備顯著性差異的一種數(shù)理統(tǒng)計(jì)方法。
根據(jù)影響試驗(yàn)條件的因素個(gè)數(shù)可以將方差分析分為:?jiǎn)我蛩胤讲罘治觥㈦p因素方差分析、多因素方差分析;雙因素方差分析則是分析兩個(gè)因素對(duì)試驗(yàn)指標(biāo)的影響;多因素方差分析則是分析更多因素指標(biāo)的分析方法。本文是以不同城市的月薪收入在每個(gè)月的水平上是否存在差異就是多組數(shù)據(jù)是否存在差異的示例:
一、單因素方差分析
單因素方差分析只考慮單一因素對(duì)試驗(yàn)指標(biāo)的影響是否顯著:
import pandas as pd from statsmodels.formula.api import ols from statsmodels.stats.anova import anova_lm data= pd.read_excel('D:/shujufenxi/jpt.xlsx',index_col=0) # 先來看下從城市因素開始分析, df_city=data.melt(var_name='城市',value_name='月薪')#使用melt()函數(shù)將讀取數(shù)據(jù)進(jìn)行結(jié)構(gòu)轉(zhuǎn)換,以滿足ols()函數(shù)對(duì)數(shù)據(jù)格式的要求,melt()函數(shù)能將列標(biāo)簽轉(zhuǎn)換為列數(shù)據(jù)
使用melt()函數(shù)對(duì)數(shù)據(jù)結(jié)構(gòu),并可視化,我們可以以肉眼觀察出差異性明顯:
import matplotlib.pyplot as plt plt.rcParams['font.sans-serif'] = ['KaiTi', 'SimHei', 'FangSong'] # 漢字字體,優(yōu)先使用楷體,如果找不到楷體,則使用黑體 plt.rcParams['font.size'] = 12 # 字體大小 plt.rcParams['axes.unicode_minus'] = False # 正常顯示負(fù)號(hào) import pandas as pd import seaborn as sns data= pd.read_excel('D:/shujufenxi/jpt.xlsx',index_col=0) data_melt = data.melt() data_melt.columns = ['城市', '月薪'] sns.boxplot(x = '城市', y = '月薪', data = data_melt) plt.show()
進(jìn)行方差分析:
import pandas as pd from statsmodels.stats.multicomp import pairwise_tukeyhsd from statsmodels.formula.api import ols from statsmodels.stats.anova import anova_lm data= pd.read_excel('D:/shujufenxi/jpt.xlsx',index_col=0) # 先來看下從城市因素開始分析, df_city=data.melt(var_name='城市',value_name='月薪')#使用melt()函數(shù)將讀取數(shù)據(jù)進(jìn)行結(jié)構(gòu)轉(zhuǎn)換,以滿足ols()函數(shù)對(duì)數(shù)據(jù)格式的要求,melt()函數(shù)能將列標(biāo)簽轉(zhuǎn)換為列數(shù)據(jù) model_city=ols('月薪~C(城市)',df_city).fit()# ols()創(chuàng)建一線性回歸分析模型 anova_table=anova_lm(model_city)# anova_lm()函數(shù)創(chuàng)建模型生成方差分析表 print(anova_table) # 進(jìn)行事后比較分析 print(pairwise_tukeyhsd(df_city['月薪'], df_city['城市']))
在結(jié)果圖上半部分中df為自由度,sum_sq為誤差平方和,mean_sq為平均平方,F(xiàn)代表統(tǒng)計(jì)量F值,PR(>F)代表顯著性水平P值;下半部分為多重比較,進(jìn)行事后分析,group1以及group2表示的是因子的不同水平,然后分析他們兩個(gè)組是否有顯著性差異,最后面的reject表示是否拒絕原假設(shè),True表示的是拒絕原假設(shè),說明兩組均值有顯著性差異。
二、雙因素方差分析
雙因素方差分析對(duì)數(shù)據(jù)結(jié)構(gòu)的要求和單因素方差分析不同,代碼如下:
import pandas as pd from statsmodels.stats.multicomp import pairwise_tukeyhsd from statsmodels.formula.api import ols from statsmodels.stats.anova import anova_lm data= pd.read_excel('D:/shujufenxi/jpt.xlsx',index_col=0) df_twoway=data.stack().reset_index() df_twoway.columns=['月份','城市','月薪'] model_twoway=ols('月薪~C(月份)+C(城市)',df_twoway).fit() anova_table=anova_lm(model_twoway) print(anova_table
總結(jié)
到此這篇關(guān)于如何使用Python進(jìn)行數(shù)據(jù)分析之方差分析的文章就介紹到這了,更多相關(guān)Python方差分析內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
利用Python繪制Jazz網(wǎng)絡(luò)圖的例子
今天小編就為大家分享一篇利用Python繪制Jazz網(wǎng)絡(luò)圖的例子,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-11-11Python圖像處理庫PIL的ImageFilter模塊使用介紹
這篇文章主要介紹了Python圖像處理庫PIL的ImageFilter模塊使用介紹,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02Python批量上傳文件信息到服務(wù)器的實(shí)現(xiàn)示例
在進(jìn)行軟件測(cè)試的過程中,經(jīng)常會(huì)需要準(zhǔn)備一批數(shù)據(jù),本文主要介紹了Python批量上傳文件信息到服務(wù)器的實(shí)現(xiàn)示例,具有一定的參考價(jià)值,感興趣的可以了解一下2023-12-12python使用super()出現(xiàn)錯(cuò)誤解決辦法
這篇文章主要介紹了python使用super()出現(xiàn)錯(cuò)誤解決辦法的相關(guān)資料,對(duì)于TypeError: must be type, not classobj的錯(cuò)誤進(jìn)行處理,需要的朋友可以參考下2017-08-08python?使用ctypes調(diào)用C/C++?dll詳情
這篇文章主要介紹了python?使用ctypes調(diào)用C/C++?dll詳情,文章首先通過導(dǎo)入ctypes模塊,加載C/C++?dll到python進(jìn)程空間展開主題相關(guān)內(nèi)容,需要的小伙伴可以參考一下2022-04-04對(duì)Django 中request.get和request.post的區(qū)別詳解
今天小編就為大家分享一篇對(duì)Django 中request.get和request.post的區(qū)別詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-08-08Windows系統(tǒng)下實(shí)現(xiàn)pycharm運(yùn)行.sh文件(本地運(yùn)行和打開服務(wù)器終端)
PyCharm是Python開發(fā)的高效率IDE,但是很多時(shí)候需要同時(shí)開發(fā)Bash(shell)腳本,下面這篇文章主要給大家介紹了關(guān)于Windows系統(tǒng)下實(shí)現(xiàn)pycharm運(yùn)行.sh文件(本地運(yùn)行和打開服務(wù)器終端)的相關(guān)資料,需要的朋友可以參考下2022-09-09在前女友婚禮上用python把婚禮現(xiàn)場(chǎng)的WIFI名稱改成了
大家好,我是Lex 喜歡欺負(fù)超人那個(gè)Lex 擅長(zhǎng)領(lǐng)域:python開發(fā),網(wǎng)絡(luò)安全滲透,Windows域控Exchange架構(gòu) 今日重點(diǎn):python暴力拿下WiFi密碼;python拿下路由器管理頁面 代碼干貨滿滿,建議收藏+實(shí)操!有問題及需要,請(qǐng)留言哦2021-08-08