欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

R語言刷題檢驗數(shù)據(jù)缺失類型過程詳解

 更新時間:2021年11月10日 08:58:28   作者:Kanny廣小隸  
這篇文章主要為大家介紹了R語言刷題中檢驗數(shù)據(jù)缺失類型的過程示例分析詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步

題目

解答

由于題目要求需要重復(fù)三次類似的操作,故首先載入所需要的包,構(gòu)造生成數(shù)據(jù)的函數(shù)以及繪圖的函數(shù):

library(tidyr)    # 繪圖所需
library(ggplot2)  # 繪圖所需
# 生成數(shù)據(jù)
GenerateData <- function(a = 0, b = 0, seed = 2018) {
  set.seed(seed)
  z1 <- rnorm(100)
  z2 <- rnorm(100)
  z3 <- rnorm(100)
  y1 <- 1 + z1
  y2 <- 5 + 2 * z1 + z2
  u <- a * (y1 - 1) + b * (y2 - 5) + z3
  m2 <- 1 * (u < 0)
  y2_na <- y2
  y2_na[u < 0] <- NA
  # y2_na[as.logical(m2)] <- NA
  dat_comp <- data.frame(y1 = y1, y2 = y2)
  dat_incomp <- data.frame(y1 = y1, y2 = y2_na)
  dat_incomp <- na.omit(dat_incomp)
  return(list(dat_comp = dat_comp, dat_incomp = dat_incomp))
}
# 展現(xiàn)缺失出具與未缺失數(shù)據(jù)的分布情況
PlotTwoDistribution <- function(dat) {
  p1 <- dat_comp %>%
    gather(y1, y2, key = "var", value = "value") %>%
    ggplot(aes(x = value)) +
    geom_histogram(aes(fill = factor(var), y = ..density..),
                   alpha = 0.3, colour = 'black') +
    stat_density(geom = 'line', position = 'identity', size = 1.5,
                 aes(colour = factor(var))) +
    facet_wrap(~ var, ncol = 2) +
    labs(y = '直方圖與密度曲線', x = '值',
         title = '完整無缺失數(shù)據(jù)', fill = '變量') +
    theme(plot.title = element_text(hjust = 0.5)) +
    guides(color = FALSE)
  p2 <- dat_incomp %>%
    gather(y1, y2, key = "var", value = "value") %>%
    ggplot(aes(x = value)) +
    geom_histogram(aes(fill = factor(var), y = ..density..),
                   alpha = 0.3, colour = 'black') +
    stat_density(geom = 'line', position = 'identity', size = 1.5,
                 aes(colour = factor(var))) +
    facet_wrap(~ var, ncol = 2) +
    labs(y = '直方圖與密度曲線', x = '值',
         title = '有缺失數(shù)據(jù)', fill = '變量') +
    theme(plot.title = element_text(hjust = 0.5)) +
    guides(color = FALSE)
  return(list(p_comp = p1, p_incomp = p2))
}

下面考慮三種情況:

1. a = 0, b = 0

a) 生成數(shù)據(jù)并繪圖展示

# 生成數(shù)據(jù)并查看數(shù)據(jù)樣式
dat <- GenerateData(a = 0, b = 0)
dat_comp <- dat$dat_comp
dat_incomp <- dat$dat_incomp

head(dat_comp)
head(dat_incomp)
# 繪圖展示
p <- PlotTwoDistribution(dat)
p$p_comp
p$p_incomp

缺失數(shù)據(jù)與未缺失數(shù)據(jù)的分布如上圖所示??梢园l(fā)現(xiàn),對于完整數(shù)據(jù)與缺失數(shù)據(jù)之間的  Y1​的分布與 Y2​的分布與期望相差不大。并且在采用  a=0,b=0這種構(gòu)造時,從構(gòu)造的公式可以看出, Y2​中樣本的缺失情況與 Y1​,Y2​兩者都無關(guān)(因為 Z 3 與 Y 1 , Y 2 均獨立),所以這種缺失機(jī)制是:MCAR。

b) 進(jìn)行t檢驗

題設(shè)條件中說的是 Y1​的均值,所以考慮完整數(shù)據(jù)與缺失數(shù)據(jù)(這里的缺失指的是若 Y2​有缺失,Y1​也會進(jìn)行相應(yīng)地缺失處理)

t.test(dat_comp$y1, dat_incomp$y1)

這里進(jìn)行t檢驗(其實不是非常嚴(yán)謹(jǐn),因為不一定滿足正態(tài)假設(shè)),比較缺失與否 Y1​的均值,這里p-value = 0.8334。在顯著性水平為0.05的前提下,并不能斷言有缺失與無缺失兩個Y1​之間的均值有差異,也就是說其實MCAR, MAR, NMAR三種情況都有可能,并不能斷言哪種不可能發(fā)生。

2. a = 2, b = 0

a) 生成數(shù)據(jù)并繪圖展示

# 生成數(shù)據(jù)并查看數(shù)據(jù)樣式
dat <- GenerateData(a = 2, b = 0)
dat_comp <- dat$dat_comp
dat_incomp <- dat$dat_incomp

head(dat_comp)
head(dat_incomp)
# 繪圖展示
p <- PlotTwoDistribution(dat)
p$p_comp
p$p_incomp

缺失數(shù)據(jù)與未缺失數(shù)據(jù)的分布如上圖所示??梢园l(fā)現(xiàn),兩個數(shù)據(jù)的期望以及分布(無論 Y1​還是  Y2​),整體都有一定差異。在采用 a = 2 , b = 0 這種構(gòu)造時,從構(gòu)造的公式可以看出, Y2​中樣本的缺失情況與 Y1​有關(guān),所以這種缺失機(jī)制是:MAR。

b) 進(jìn)行t檢驗

t.test(dat_comp$y1, dat_incomp$y1)

3. a = 0, b = 2

a) 生成數(shù)據(jù)并繪圖展示

# 生成數(shù)據(jù)并查看數(shù)據(jù)樣式
dat <- GenerateData(a = 0, b = 2)
dat_comp <- dat$dat_comp
dat_incomp <- dat$dat_incomp

head(dat_comp)
head(dat_incomp)
# 繪圖展示
p <- PlotTwoDistribution(dat)
p$p_comp
p$p_incomp

缺失數(shù)據(jù)與未缺失數(shù)據(jù)的分布如上圖所示??梢园l(fā)現(xiàn)與上一種情況一樣,兩個數(shù)據(jù)的期望以及分布(無論 Y1​還是  Y2​),整體都有一定差異。在采用 a = 0 , b = 2 這種構(gòu)造時,從構(gòu)造的公式可以看出,Y2​中樣本的缺失情況與 Y2​本身有關(guān),所以這種缺失機(jī)制是:NMAR。

b) 進(jìn)行t檢驗

t.test(dat_comp$y1, dat_incomp$y1)

以上就是R語言刷題檢驗數(shù)據(jù)缺失類型過程詳解的詳細(xì)內(nèi)容,更多關(guān)于R語言檢驗數(shù)據(jù)缺失類型的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • R語言非線性模型的實現(xiàn)

    R語言非線性模型的實現(xiàn)

    本文主要介紹了R語言非線性模型的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-08-08
  • R語言:實現(xiàn)因子與字符串的互轉(zhuǎn)

    R語言:實現(xiàn)因子與字符串的互轉(zhuǎn)

    這篇文章主要介紹了R語言:實現(xiàn)因子與字符串的互轉(zhuǎn)操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • R語言數(shù)據(jù)可視化tidyr與ggplot2多個變量分層展示舉例實現(xiàn)

    R語言數(shù)據(jù)可視化tidyr與ggplot2多個變量分層展示舉例實現(xiàn)

    這篇文章主要為大家介紹了R語言可視化tidyr與ggplot2多個變量的分層展示,實現(xiàn)過程文中通過舉例為大家進(jìn)行了詳解,有需要的朋友可以借鑒參考下
    2021-11-11
  • R語言關(guān)于決策樹知識點總結(jié)

    R語言關(guān)于決策樹知識點總結(jié)

    在本篇文章里小編給大家整理的是一篇關(guān)于R語言關(guān)于決策樹知識點總結(jié)內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。
    2021-05-05
  • R語言中do.call()的使用說明

    R語言中do.call()的使用說明

    這篇文章主要介紹了R語言中do.call()的使用說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • 詳解R語言中生存分析模型與時間依賴性ROC曲線可視化

    詳解R語言中生存分析模型與時間依賴性ROC曲線可視化

    這篇文章主要介紹了R語言中生存分析模型與時間依賴性ROC曲線可視化,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2021-03-03
  • R語言 實現(xiàn)手動設(shè)置xy軸刻度的操作

    R語言 實現(xiàn)手動設(shè)置xy軸刻度的操作

    這篇文章主要介紹了R語言 實現(xiàn)手動設(shè)置xy軸刻度的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • R語言利用barplot()制作條形圖的各種實例

    R語言利用barplot()制作條形圖的各種實例

    這篇文章主要給大家介紹了關(guān)于R語言利用barplot()制作條形圖的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-03-03
  • R語言-如何按照某一列分組求均值

    R語言-如何按照某一列分組求均值

    這篇文章主要介紹了R語言實現(xiàn)按照某一列分組求均值的操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2021-04-04
  • R語言安裝以及手動安裝devtools的詳細(xì)圖文教程

    R語言安裝以及手動安裝devtools的詳細(xì)圖文教程

    R語言是一個強(qiáng)大的數(shù)據(jù)分析工具,其強(qiáng)大之處在于有各種各樣的R包幫助其實現(xiàn)各種各樣的功能,下面這篇文章主要給大家介紹了關(guān)于R語言安裝以及手動安裝devtools的相關(guān)資料,需要的朋友可以參考下
    2022-08-08

最新評論