腳本之家服務(wù)器常用軟件

快捷導航

R語言實現(xiàn)兩表連接且輸出不重復數(shù)據(jù)

更新時間：2021年03月27日 17:25:50 作者：Watch_dou

這篇文章主要介紹了R語言實現(xiàn)兩表連接且輸出不重復數(shù)據(jù)的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

在做項目中遇到了如此問題，其中整理的結(jié)果表中沒有會員ID信息，只有會員電話號碼信息，且每一行為唯一一個會員。

另外一張member表中包含會員ID以及會員電話信息，但是這張表有重復的會員信息，也就是說一個會員在member表中多次出現(xiàn)，memeber表比整理的表要大很多。

說明：

1.在項目過程中，數(shù)據(jù)量較大，用到的是data.table包，需要用到SQL中的語句減少代碼量，因此需要sqldf包。

2.以下例子中xx中的a1在yy中都有對應的值。

3.yy中的a1與b是一一對應的關(guān)系，不存在同一個a1值對應不同的b值。

4.此程序的目的是，用yy表與xx表匹配，也就是最終的結(jié)果應該是在xx的基礎(chǔ)上增加b這一列的信息，數(shù)據(jù)集xx的行數(shù)不變。

如下所示：

<span style="font-size:14px;">> library(data.table)
> library(sqldf)
> xx <- data.table(a1=1:6,c=c(8,5,8,6,23,7),d=c('adf','af','sdf','utr','af','ruti'))</span>
<span style="font-family:SimSun;font-size:14px;">> xx
  a1 c  d
1: 1 8 adf
2: 2 5  af
3: 3 8 sdf
4: 4 6 utr
5: 5 23  af
6: 6 7 ruti</span>

<span style="font-size:14px;">yy <- data.table(a1=c(2,3,1,4,5,5,7,6,8,9,2,2,3,6),b=c('b','c','a','d','e','e','g',
                            'f','h','i','b','b','c','f'))</span>

<span style="font-size:14px;">> yy
  a1 b
 1: 2 b
 2: 3 c
 3: 1 a
 4: 4 d
 5: 5 e
 6: 5 e
 7: 7 g
 8: 6 f
 9: 8 h
10: 9 i
11: 2 b
12: 2 b
13: 3 c
14: 6 f
</span>

<span style="font-size:14px;">#按照a1連接所有信息包括進去 
> dataxy<- merge(xx, yy, by = "a1", all.x = TRUE)
> dataxy 
  a1 c  d b
 1: 1 8 adf a
 2: 2 5  af b
 3: 2 5  af b
 4: 2 5  af b
 5: 3 8 sdf c
 6: 3 8 sdf c
 7: 4 6 utr d
 8: 5 23  af e
 9: 5 23  af e
10: 6 7 ruti f
11: 6 7 ruti f</span>

<span style="font-size:14px;">#刪除重復的行*/ 
> sqldf("select DISTINCT a1,b,c,d from left1")
 a1 b c  d
1 1 a 8 adf
2 2 b 5  af
3 3 c 8 sdf
4 4 d 6 utr
5 5 e 23  af
6 6 f 7 ruti</span>

補充：R語言篩選出不重復的行的幾種方法

在做項目的過程中遇到篩選不重復的會員信息進行匹配，本次介紹五種篩選不重復行的數(shù)據(jù)：

五種方法如下：

>>> library(dplyr)
>>> library(sqldf)

方法一：

>>> data1 <- data7_0 %>% 
       group_by(CELLPHONE,MEMBERID) %>%
       filter(row_number() == 1) %>%
       ungroup()

方法二：

>>> data2 <- data7_0 %>% 
       distinct(CELLPHONE,MEMBERID, .keep_all = TRUE)

方法三：

>>> data3 <- sqldf("select DISTINCT CELLPHONE,MEMBERID from data7_0")

方法四：

>>> data4 <- base::unique(data7_0)

方法五：

>>> data5 <- as.data.table(data7_0[!duplicated(data7_0$CELLPHONE), ])

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方，望不吝賜教。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

R語言實現(xiàn)兩表連接且輸出不重復數(shù)據(jù)

說明：

如下所示：

五種方法如下：

方法一：

方法二：

方法三：

方法四：

方法五：

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

R語言 實現(xiàn)兩表連接且輸出不重復數(shù)據(jù)

說明：

如下所示：

五種方法如下：

方法一：

方法二：

方法三：

方法四：

方法五：

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

R語言實現(xiàn)兩表連接且輸出不重復數(shù)據(jù)