欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Hive數(shù)據(jù)去重的兩種方式?(distinct和group?by)

 更新時(shí)間:2023年01月03日 09:50:17   作者:zzhangyuhang  
數(shù)據(jù)庫(kù)中表存在重復(fù)數(shù)據(jù),需要清理重復(fù)數(shù)據(jù),下面這篇文章主要給大家介紹了關(guān)于Hive數(shù)據(jù)去重的兩種方式,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下

實(shí)現(xiàn)數(shù)據(jù)去重有兩種方式 :distinct 和 group by

1.distinct消除重復(fù)行

distinct支持單列、多列的去重方式。

單列去重的方式簡(jiǎn)明易懂,即相同值只保留1個(gè)。

多列的去重則是根據(jù)指定的去重的列信息來進(jìn)行,即只有所有指定的列信息都相同,才會(huì)被認(rèn)為是重復(fù)的信息。

(1)作用于單列

  select distinct name from A    //對(duì)A表的name去重然后顯示

(2)作用于多列

  select distinct id,name from A   //對(duì)A表的id和name去重然后顯示

注意,distinct作用于多列的時(shí)候只在開頭加上即可,并不用每個(gè)字段都加上。

     distinct必須在開頭,在中間是不可以的,會(huì)報(bào)錯(cuò)。

  select id,distinct name from A   //錯(cuò)誤

(3)配合count使用

  select count(distinct name) from A  //對(duì)A表的不同的name進(jìn)行計(jì)數(shù)

2.group by 分組語句

    select name from A group by name   //跟上述等價(jià),對(duì)name分組,相當(dāng)于去重。

    在使用group by的時(shí)候,前邊一般會(huì)有聚合語句,例如sum,一些沒有聚合的字段必須要加到group by 后邊。

   select a,sum(b) from A group by a   //后邊必須要有a,否則報(bào)錯(cuò)  

3.區(qū)別

 其實(shí)二者沒有什么可比性,但是對(duì)于不包含聚集函數(shù)的GROUP BY操作來說,和DISTINCT操作是等價(jià)的。不過雖然二者的結(jié)果是一樣的,但是二者的執(zhí)行計(jì)劃并不相同。

 distinct只是將重復(fù)的行從結(jié)果中出去; 

 group by是按指定的列分組,一般這時(shí)在select中會(huì)用到聚合函數(shù)。

 distinct是把不同的記錄顯示出來。 

 group by是在查詢時(shí)先把紀(jì)錄按照類別分出來再查詢。

 group by 必須在查詢結(jié)果中包含一個(gè)聚集函數(shù),而distinct不用。

總結(jié)

到此這篇關(guān)于Hive數(shù)據(jù)去重的兩種方式的文章就介紹到這了,更多相關(guān)Hive數(shù)據(jù)去重內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 在數(shù)據(jù)庫(kù)中如何高效的實(shí)現(xiàn)訂座功能

    在數(shù)據(jù)庫(kù)中如何高效的實(shí)現(xiàn)訂座功能

    這篇文章主要給大家介紹了關(guān)于在數(shù)據(jù)庫(kù)中如何高效的實(shí)現(xiàn)訂座功能的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2018-11-11
  • 最新評(píng)論