R語言中na.fail和na.omit的用法

更新時間：2021年04月20日 12:04:26 作者：SThranduil

這篇文章主要介紹了R語言中na.fail和na.omit的用法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

實際工作中，數(shù)據(jù)集很少是完整的，許多情況下樣本中都會包括若干缺失值NA，這在進(jìn)行數(shù)據(jù)分析和挖掘時比較麻煩。

R語言通過na.fail和na.omit可以很好地處理樣本中的缺失值

1、na.fail（<向量a>）: 如果向量a內(nèi)包括至少1個NA，則返回錯誤；如果不包括任何NA，則返回原有向量a

2、na.omit（<向量a>）: 返回刪除NA后的向量a

3、attr（ na.omit（<向量a>） ,”na.action”）: 返回向量a中元素為NA的下標(biāo)

4、is.na：判斷向量內(nèi)的元素是否為NA

example：

data<-c(1,2,NA,2,4,2,10,NA,9)
data.na.omit<-na.omit(data)
data.na.omit
    [1]  1  2  2  4  2  10  9
    attr(,"na.action")
    [1] 3 8
    attr(,"class")
    [1] "omit"
attr(data.na.omit,"na.action")
    [1] 3 8
    attr(,"class")
    [1] "omit"

另外還可以使用!x方式方便地刪除NA。

例如：

a<-c(1,2,3,NA,NA,2,NA,5)
a[!is.na(a)]
    [1] 1 2 3 2 5

其中，is.na用于判斷向量內(nèi)的元素是否為NA，返回結(jié)果：c(FALSE,FALSE,FALSE,TRUE,TRUE,FALSE,TRUE,FALSE)，即a內(nèi)元素為NA，其對應(yīng)的下標(biāo)元素是TRUE，反之是FALSE。

！x是取非邏輯運算符，!is.na（a）表示a內(nèi)元素不為NA，其對應(yīng)的下標(biāo)元素是TRUE，反之是FALSE。

通過a[!is.na（a）]進(jìn)行索引后，即可取出a內(nèi)不為NA的元素，將其過濾。

其中，函數(shù)na.fail和 na.omit 不僅可以應(yīng)用于向量，也可以應(yīng)用于矩陣和數(shù)據(jù)框。

example：

data <- read.table(text="
a b c d e f
NA 1 1 1 1 1
1 NA 1 1 1 1
1 1 NA 1 1 1
1 1 1 NA 1 1
1 1 1 1 NA 1
1 1 1 1 1 NA",header=T)
na.omit(data)
data
>[1] a b c d e f
<0 行> (或0-長度的row.names)

補充：R語言移除缺失值 NA.RM

看代碼~

> a <- 2:12
> b <- seq(2,23,2)
> c <- c(1:11)^3
> d <- c(5:8, 30:36)
 
> df <- data.frame(a,b,c,d)
> df$a[df$a==8] <- NA 
> df$b[df$b==8] <- NA 
> df$c[df$c==8] <- NA 
> df$d[df$d==8] <- NA 
> df$d[df$d==32] <- NA
 
 
> df
    a  b    c  d
1   2  2    1  5
2   3  4   NA  6
3   4  6   27  7
4   5 NA   64 NA
5   6 10  125 30
6   7 12  216 31
7  NA 14  343 NA
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 只根據(jù)第四列，也就是d 的 NA，移除相應(yīng)的行
> bad.d <- is.na(df$d)
> bad.d
 [1] FALSE FALSE FALSE  TRUE FALSE FALSE  TRUE FALSE FALSE FALSE FALSE
> df[!bad.d,]
    a  b    c  d
1   2  2    1  5
2   3  4   NA  6
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 根據(jù)第二列和第三列的NA 移除相應(yīng)的行
> df[complete.cases(df[,2:3]),]
    a  b    c  d
1   2  2    1  5
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
7  NA 14  343 NA
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 根據(jù)第二列和 第四列的NA，移除相應(yīng)的行
> df[complete.cases(df[,c(2,4)]),]
    a  b    c  d
1   2  2    1  5
2   3  4   NA  6
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 根據(jù)所有列的NA，移除相應(yīng)的行
> df[complete.cases(df),]
    a  b    c  d
1   2  2    1  5
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
> 
// 這個效果跟上面的df[complete.cases(df),] 相同
> na.omit(df)
    a  b    c  d
1   2  2    1  5
3   4  6   27  7
5   6 10  125 30
6   7 12  216 31
8   9 16  512 33
9  10 18  729 34
10 11 20 1000 35
11 12 22 1331 36
 
// 計算某一列的平均值， 移除NA值
> mean(df$d, na.rm=TRUE)

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方，望不吝賜教。

您可能感興趣的文章: