Linux實現(xiàn)文件內(nèi)容去重及求交并差集
一、數(shù)據(jù)去重
日常工作中,使用Hive或者Impala查詢導(dǎo)出來可能會存在數(shù)據(jù)重復(fù)的現(xiàn)象,但又不想重新執(zhí)行一遍查詢(查詢時間稍長,導(dǎo)出文件內(nèi)容多),因此想到了使用Linux命令將文件的內(nèi)容重復(fù)數(shù)據(jù)進(jìn)行去除。
案例如下:
可以看到aaa.txx有3條重復(fù)數(shù)據(jù)
想去掉多余的數(shù)據(jù),只保留一條
sort aaa.txt | uniq > bbb.txt
將aaa.txt文件中重復(fù)數(shù)據(jù)去掉,輸出到bbb.txt
可以看到bbb.txt文件中只保留了一條數(shù)據(jù)
二、數(shù)據(jù)交、并、差
1)、交集(相當(dāng)于user_2019 inner join user_2020 on user_2019.user_no=user_2020.user_no)
sort user_2019.txt user_2020.txt | uniq -d
2)、并集(相當(dāng)于 user_2019.user_no union user_2020.user_no)
sort user_2019.txt user_2020.txt | uniq
3)、差集
user_2019.txt-user_2020.txt
sort user_2019.txt user_2020.txt user_2020.txt | uniq -u
user_2020.txt - user_2019.txt:
sort user_2020.txt user_2019.txt user_2019.txt | uniq -u
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Ubuntu系統(tǒng)日志配置 /var/log/messages的方法
今天小編就為大家分享一篇Ubuntu系統(tǒng)日志配置 /var/log/messages的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-07-07詳解Linux系統(tǒng)中設(shè)置SFTP服務(wù)用戶目錄權(quán)限的方法
這篇文章主要給大家介紹了Linux系統(tǒng)中設(shè)置SFTP服務(wù)用戶目錄權(quán)限的方法,文中給出了詳細(xì)的設(shè)置方法,有需要的朋友們可以參考借鑒,下面來一起看看吧。2016-12-12linux系統(tǒng)下定時執(zhí)行php腳本的方法
網(wǎng)站運營過程中,經(jīng)常會遇到需要定時執(zhí)行php腳本的情況,下面這篇文章主要介紹了linux系統(tǒng)下定時執(zhí)行php腳本的方法,需要的朋友可以參考借鑒,下面來一起看看吧。2017-01-01linux中高并發(fā)socket最大連接數(shù)的優(yōu)化詳解
這篇文章主要給大家介紹了關(guān)于linux中高并發(fā)socket最大連接數(shù)優(yōu)化的相關(guān)資料,文中介紹的很詳細(xì),相信對大家具有一定的參考價值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧。2017-02-02