R語言-如何實(shí)現(xiàn)卡方檢驗(yàn)
卡方檢驗(yàn)
在數(shù)據(jù)統(tǒng)計(jì)中,卡方檢驗(yàn)是一種很重要的方法。
通??ǚ綑z驗(yàn)的應(yīng)用主要為:
1、 卡方擬合優(yōu)度檢驗(yàn)
2、卡方獨(dú)立性檢驗(yàn)
本文主要通過使用自己編程的方法實(shí)現(xiàn)相關(guān)檢驗(yàn)。
卡方擬合優(yōu)度檢驗(yàn)
理論:
1、我們先做出0假設(shè):H0:總體服從假定的理論分布
2、我們?cè)贅?gòu)造一個(gè)統(tǒng)計(jì)量:
3、當(dāng)n充分大時(shí)
4、我們得到該拒絕域
代碼
#Chi_square Goodness Of Fit Test #函數(shù)說明: #n為所得樣本數(shù)據(jù);p為理論概率 #alpha為置信水平,df為自由度 cgoft <- function(n,p){ N <- length(n)#N為樣本總?cè)萘? sumn <- sum(n) XX <- 0 for (i in 1:N) { XX <- XX +(n[i]-sumn*p[i])^2/(sumn*p[i]) print(XX) } return(XX) } c <- qchisq(1-aplha,df)
卡方獨(dú)立性檢驗(yàn)
理論:
1、我們先做出0假設(shè):H0:二者沒有相關(guān)關(guān)系
2、我們?cè)贅?gòu)造一個(gè)統(tǒng)計(jì)量:
3、當(dāng)n充分大時(shí)
4、我們得到該拒絕域
代碼
#Chi_square Independence Test #函數(shù)說明: #n為樣本數(shù)據(jù),表格按行排列,寫成向量形式;row為表格行數(shù) #alpha為置信水平,df為自由度 cit <- function(n,row){ N <- length(n) sumn <- sum(n) n1 <- matrix(n,nrow=row,byrow = TRUE) column <- N/row pi <- c() for (i in 1:row) { pi[i] <- sum(n1[i,])/sumn } pj <- c() for (j in 1:column) { pj[j] <- sum(n1[,j])/sumn } XX <- 0 print(pj) for (i in 1:row) { for (j in 1:column) { XX <- XX + (n1[i,j]-sumn*pi[i]*pj[j])^2/(sumn*pi[i]*pj[j]) } } return(XX) } c <- qchisq(1-aplha,df)
補(bǔ)充:R語言實(shí)施皮爾森卡方檢驗(yàn)
說明
檢查兩個(gè)數(shù)據(jù)集中的類別分量是否不同,在統(tǒng)計(jì)中會(huì)碰到離散型數(shù)據(jù)與計(jì)數(shù)數(shù)據(jù),比如性別分男、女,某個(gè)問題的態(tài)度分為贊成、反對(duì),成績可分優(yōu)良差,能力可分高中低。對(duì)這類數(shù)據(jù)的統(tǒng)計(jì)處理的假設(shè)檢驗(yàn)一般用計(jì)數(shù)數(shù)據(jù)的統(tǒng)計(jì)方法進(jìn)行非參數(shù)檢驗(yàn)。
卡方檢驗(yàn)主要用于兩個(gè)方面,一是對(duì)總體分布進(jìn)行擬合性檢驗(yàn),檢驗(yàn)觀查次數(shù)是否與某種理論次數(shù)相一致。
二是獨(dú)立性檢驗(yàn),用于檢驗(yàn)兩組或者多組資料相互關(guān)聯(lián)還是彼此獨(dú)立。
操作示例(獨(dú)立性檢驗(yàn))
#mtcars$am有0,1兩個(gè)因素表示行,mtcars$gear 有3,4,5三個(gè)因素表示列 library(stats) data("mtcars) ftable = table(mtcars$am,mtcars$gear) ftable = table(mtcars$am,mtcars$gear) ftable = table(mtcars$am,mtcars$gear) > ftable 3 4 5 0 15 4 0 1 0 8 5
#繪制列聯(lián)表的馬賽克圖 mosaicplot(ftable,main ="number of forward gears within automatic and manual cars",color = TRUE )
對(duì)列聯(lián)表執(zhí)行卡方檢驗(yàn),以檢測自動(dòng)檔與手動(dòng)檔汽車前驅(qū)的齒輪數(shù)目是否相同:
chisq.test(ftable) Pearson's Chi-squared test data: ftable X-squared = 20.945, df = 2, p-value = 2.831e-05 Warning message: In chisq.test(ftable) : Chi-squared近似算法有可能不準(zhǔn)
總結(jié)
卡方檢驗(yàn)用于發(fā)現(xiàn)兩個(gè)類別變量之間是否存在某種關(guān)聯(lián),最適用于數(shù)組中非成組信息的檢驗(yàn)。使用條件:1.數(shù)據(jù)都為類別數(shù)據(jù)2.變量包括兩個(gè)或者兩個(gè)以上獨(dú)立數(shù)據(jù)組。
H0:變量A與變量B相互獨(dú)立(gear數(shù)目相同)
H1:變量A與變量B相互不獨(dú)(gear數(shù)目不相同)
由圖知:自動(dòng)檔的gear要小于手動(dòng)檔的gear.p-value<0.05,拒絕H0,接收H1.
樣例輸出了一個(gè)警告信息,此次卡方檢驗(yàn)的結(jié)果可能不正確,這是因?yàn)榱新?lián)表的個(gè)數(shù)小于5。
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
pycharm實(shí)現(xiàn)R語言運(yùn)行環(huán)境安裝配置的實(shí)現(xiàn)步驟
大多數(shù)人仍然使用RStudio進(jìn)行R語言開發(fā)。與RStudio相比,PyCharm具有更多的優(yōu)勢,本文主要介紹了pycharm運(yùn)行R語言腳本的實(shí)現(xiàn)步驟,文中通過圖文介紹的非常詳細(xì),感興趣的可以了解一下2023-10-10R語言矩陣知識(shí)點(diǎn)總結(jié)及實(shí)例分析
在本篇文章里小編給各位整理了一篇關(guān)于R語言矩陣知識(shí)點(diǎn)總結(jié)及實(shí)例分析,對(duì)此有興趣的朋友們可以學(xué)習(xí)下。2021-04-04R語言關(guān)于協(xié)方差分析實(shí)例分析
在本篇內(nèi)容里小編給大家整理的是一篇關(guān)于R語言關(guān)于協(xié)方差分析實(shí)例分析內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。2021-05-05R語言繪圖公式與變量對(duì)象混合拼接實(shí)現(xiàn)方法
這篇文章主要為大家介紹了R語言繪圖中的公式如何與變量對(duì)象混合拼接的實(shí)現(xiàn)方法,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-11-11