hive中的幾種join到底有什么區(qū)別
hive中,幾種join的區(qū)別
數(shù)據(jù):
tom,1
jey,2
lilly,7
lilly,8
tom,1
lilly,3
may,4
bob,5
以上兩個為數(shù)據(jù),沒有什么意義,全是為了檢測join的使用
看一下兩張表,其實可以看出來,在name一行有重復的,也有不重復的,在id一行1表完全包含2表
1. left join
left join會把左邊的表所有數(shù)據(jù)列出來,當左邊表有而右邊表沒有的時候,就會用null代替
select * from jn1 left join jn2 on jn1.name=jn2.name;
jn1.name jn1.id jn2.name jn2.id
tom 1 tom 1
jey 2 NULL NULL
lilly 7 lilly 3
lilly 8 lilly 3
而右表有左表沒有的就不會顯示了
2. join
join會把兩個表共有的部分篩選出來
select * from jn1 join jn2 on jn1.name=jn2.name;
jn1.name jn1.id jn2.name jn2.id
tom 1 tom 1
lilly 7 lilly 3
lilly 8 lilly 3
可以看到,共有的部分篩選了出來
3. full join
會把兩者沒有的有的全部數(shù)據(jù)都選出來,沒有的顯示空值
select * from jn1 full join jn2 on jn1.name = jn2.name;
jn1.name jn1.id jn2.name jn2.id
tom 1 tom 1
NULL NULL bob 5
jey 2 NULL NULL
lilly 7 lilly 3
lilly 8 lilly 3
NULL NULL may 4
4. Join…on 1=1
這種情況會有笛卡爾積的產(chǎn)生,就是表1的每一行都會和表2匹配一下,這樣就會產(chǎn)生指數(shù)級的增長
select * from jn1 join jn2 on 1=1;
jn1.name jn1.id jn2.name jn2.id
tom 1 lilly 3
tom 1 bob 5
tom 1 may 4
tom 1 tom 1
jey 2 lilly 3
jey 2 bob 5
jey 2 may 4
jey 2 tom 1
lilly 7 lilly 3
lilly 7 bob 5
lilly 7 may 4
lilly 7 tom 1
lilly 8 lilly 3
lilly 8 bob 5
lilly 8 may 4
lilly 8 tom 1
5. union
會把查詢結果拼接起來,但是要求兩個查詢結果的行數(shù)必須保持一致
否則會報錯
FAILED: SemanticException Schema of both sides of union should match
select * from jn1 union select * from jn2;
_u1.name _u1.id
jey 2
lilly 7
bob 5
lilly 3
lilly 8
tom 1
may 4
6. union all
union會組合起來,那么union all可以不
select * from jn1 union all select * from jn2;
lilly 3
tom 1
may 4
bob 5
tom 1
jey 2
lilly 7
lilly 8
union和union all的區(qū)別
從上述的兩個結果就可以看出來了兩者的區(qū)別,union會自動去重處理,所以結果把重復的數(shù)據(jù)去掉了,而union all則不會去重。
注意tips:left join會用之后,right join不用說了吧
總結
到此這篇關于hive中的幾種join到底有什么區(qū)別的文章就介紹到這了,更多相關hive的join區(qū)別內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Navicat圖形化界面之Navicat?Premium?12?安裝與使用教程
Navicat?premium?是一款數(shù)據(jù)庫管理工具,它可以讓你以單一程式同時連線到?MySQL、SQLite、Oracle?及?PostgreSQL?資料庫,讓管理不同類型的資料庫更加的方便,下面通過本文給大家介紹Navicat?Premium?12?安裝使用教程,需要的朋友參考下吧2021-12-12SQLServer與Oracle常用函數(shù)實例對比匯總
這篇文章主要介紹了SQLServer與Oracle常用函數(shù)對比,需要的朋友可以參考下2014-06-06neo4j創(chuàng)建數(shù)據(jù)庫以及導入csv文件內(nèi)容圖文詳解
這篇文章主要給大家介紹了關于neo4j創(chuàng)建數(shù)據(jù)庫以及導入csv文件內(nèi)容的相關資料,Neo4j是一個基于圖形結構的NoSQL數(shù)據(jù)庫,它提供了一種高效的方式來管理和查詢大型復雜數(shù)據(jù),需要的朋友可以參考下2023-11-11postgresql 按小時分表(含觸發(fā)器)的實現(xiàn)方式
這篇文章主要介紹了postgresql 按小時分表(含觸發(fā)器)的實現(xiàn)方式,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2020-01-01