Hive數(shù)據(jù)去重的兩種方式?(distinct和group?by)
實(shí)現(xiàn)數(shù)據(jù)去重有兩種方式 :distinct 和 group by
1.distinct消除重復(fù)行
distinct支持單列、多列的去重方式。
單列去重的方式簡(jiǎn)明易懂,即相同值只保留1個(gè)。
多列的去重則是根據(jù)指定的去重的列信息來進(jìn)行,即只有所有指定的列信息都相同,才會(huì)被認(rèn)為是重復(fù)的信息。
(1)作用于單列
select distinct name from A //對(duì)A表的name去重然后顯示
(2)作用于多列
select distinct id,name from A //對(duì)A表的id和name去重然后顯示
注意,distinct作用于多列的時(shí)候只在開頭加上即可,并不用每個(gè)字段都加上。
distinct必須在開頭,在中間是不可以的,會(huì)報(bào)錯(cuò)。
select id,distinct name from A //錯(cuò)誤
(3)配合count使用
select count(distinct name) from A //對(duì)A表的不同的name進(jìn)行計(jì)數(shù)
2.group by 分組語句
select name from A group by name //跟上述等價(jià),對(duì)name分組,相當(dāng)于去重。
在使用group by的時(shí)候,前邊一般會(huì)有聚合語句,例如sum,一些沒有聚合的字段必須要加到group by 后邊。
select a,sum(b) from A group by a //后邊必須要有a,否則報(bào)錯(cuò)
3.區(qū)別
其實(shí)二者沒有什么可比性,但是對(duì)于不包含聚集函數(shù)的GROUP BY操作來說,和DISTINCT操作是等價(jià)的。不過雖然二者的結(jié)果是一樣的,但是二者的執(zhí)行計(jì)劃并不相同。
distinct只是將重復(fù)的行從結(jié)果中出去;
group by是按指定的列分組,一般這時(shí)在select中會(huì)用到聚合函數(shù)。
distinct是把不同的記錄顯示出來。
group by是在查詢時(shí)先把紀(jì)錄按照類別分出來再查詢。
group by 必須在查詢結(jié)果中包含一個(gè)聚集函數(shù),而distinct不用。
總結(jié)
到此這篇關(guān)于Hive數(shù)據(jù)去重的兩種方式的文章就介紹到這了,更多相關(guān)Hive數(shù)據(jù)去重內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Navicat Premium 15 永久破解激活工具及安裝教程(親測(cè)可用)
這篇文章主要介紹了Navicat Premium 15 永久破解激活教程,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-11-11Win2003系統(tǒng)安裝SQL Server2000后1433端口未開放的解釋
這篇文章主要介紹了Win2003系統(tǒng)安裝SQL Server2000后1433端口未開放的解釋2007-02-02詳解數(shù)據(jù)庫(kù)中跨庫(kù)數(shù)據(jù)表的運(yùn)算
跨庫(kù)數(shù)據(jù)表,是指邏輯上同一張數(shù)據(jù)表被分別存儲(chǔ)在不同數(shù)據(jù)庫(kù)中。接下來通過本文給大家介紹數(shù)據(jù)庫(kù)中跨庫(kù)數(shù)據(jù)表的運(yùn)算方法,感興趣的朋友跟隨小編一起看看吧2018-11-11Navicat?Premium?15?linux?安裝與激活?ArchLinux?2022最新教程(完整激活
navicat?premium?mac是一款強(qiáng)大數(shù)據(jù)庫(kù)管理軟件,通過navicat?premium?15?用戶快速輕松地構(gòu)建,管理和維護(hù)您的數(shù)據(jù)庫(kù),結(jié)合了其他Navicat軟件使用更有意想不到的功能,這篇文章主要介紹了Navicat?Premium?15?linux?安裝與激活?ArchLinux?2022,需要的朋友可以參考下2023-01-01ubuntu中使用docker下載華為opengauss數(shù)據(jù)庫(kù)超簡(jiǎn)單步驟
openGauss是關(guān)系型數(shù)據(jù)庫(kù),采用客戶端/服務(wù)器,單進(jìn)程多線程架構(gòu),支持單機(jī)和一主多備部署方式,備機(jī)可讀,支持雙機(jī)高可用和讀擴(kuò)展,這篇文章主要給大家介紹了關(guān)于ubuntu中使用docker下載華為opengauss數(shù)據(jù)庫(kù)超的簡(jiǎn)單步驟,需要的朋友可以參考下2024-04-04利用SQL腳本導(dǎo)入數(shù)據(jù)到不同數(shù)據(jù)庫(kù)避免重復(fù)的3種方法
這篇文章主要給大家介紹了關(guān)于利用SQL腳本導(dǎo)入數(shù)據(jù)到不同數(shù)據(jù)庫(kù)避免重復(fù)的3種方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。2017-10-10

在數(shù)據(jù)庫(kù)中如何高效的實(shí)現(xiàn)訂座功能