SQL語句中JOIN的用法場(chǎng)景分析
記錄:256
寫SQL最高境界:SELECT * FROM 表名。當(dāng)然這是一句自嘲。探究一下SQL語句中JOIN的用法,直到經(jīng)歷這個(gè)場(chǎng)景,變得想驗(yàn)證一下究竟。
一、場(chǎng)景
把關(guān)系型數(shù)據(jù)庫A中表TEST_TB01和TEST_TB02遷移到大數(shù)據(jù)平臺(tái)M(MaxCompute大數(shù)據(jù)平臺(tái))。TEST_TB01單表1000萬條記錄,TEST_TB02單表80萬條記錄。
在關(guān)系型數(shù)據(jù)庫中,TEST_TB01和TEST_TB02中有主鍵約束。在產(chǎn)生新增業(yè)務(wù)數(shù)據(jù)時(shí),不會(huì)存在重復(fù)數(shù)據(jù)插入。但是,當(dāng)數(shù)據(jù)遷移到大數(shù)據(jù)平臺(tái)后,由于在大數(shù)據(jù)平臺(tái)中無主鍵約束功能。在產(chǎn)生新增業(yè)務(wù)數(shù)據(jù)時(shí),TEST_TB01和TEST_TB02均均插入了重復(fù)數(shù)據(jù)。
在一個(gè)計(jì)算任務(wù)中,TEST_TB01和TEST_TB02根據(jù)某個(gè)字段JOIN連接,計(jì)算出了一份結(jié)果數(shù)據(jù),數(shù)據(jù)推送到使用方的關(guān)系型數(shù)據(jù)庫C。直接導(dǎo)致了C數(shù)據(jù)庫的對(duì)應(yīng)表的表空間撐爆,監(jiān)控預(yù)警。
原因:TEST_TB01和TEST_TB02有重復(fù)數(shù)據(jù),使用JOIN連接后,生成了10億+條數(shù)據(jù),共計(jì)200G+數(shù)據(jù),直接推送到C數(shù)據(jù)庫。
那次考慮不周,瞬間懵了,感覺SQL語句中的JOIN變得陌生極了。于是想探究一下以作記錄。
二、建表
TEST_TB01建表語句:
create table TEST_TB01 ( sensor_id BIGINT, part_id BIGINT ) COMMENT '數(shù)據(jù)表一';
TEST_TB02建表語句:
create table TEST_TB02 ( part_id BIGINT, elem_id BIGINT ) COMMENT '數(shù)據(jù)表二';
三、SQL語句中使用JOIN無重復(fù)數(shù)據(jù)情況
在SQL語句中使用JOIN無重復(fù)數(shù)據(jù)情況,即在TEST_TB01和TEST_TB02表中均無重復(fù)數(shù)據(jù)情況。分別使用JOIN、INNER JOIN、LEFT JOIN、LEFT OUTER JOIN、RIGHT JOIN、FULL JOIN驗(yàn)證。
在TEST_TB01插入數(shù)據(jù):
insert into TEST_TB01 (sensor_id,part_id) values(2101,9911); insert into TEST_TB01 (sensor_id,part_id) values(2102,9912); insert into TEST_TB01 (sensor_id,part_id) values(2103,9913); insert into TEST_TB01 (sensor_id,part_id) values(2104,9914); insert into TEST_TB01 (sensor_id,part_id) values(2105,9915);
在TEST_TB02插入數(shù)據(jù):
insert into TEST_TB02 (part_id,elem_id) values(9911,8901); insert into TEST_TB02 (part_id,elem_id) values(9912,8902); insert into TEST_TB02 (part_id,elem_id) values(9913,8903); insert into TEST_TB02 (part_id,elem_id) values(9916,8906);
查看TEST_TB01數(shù)據(jù):
查看TEST_TB02數(shù)據(jù):
1.在SQL中使用JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用JOIN連接,只返回兩個(gè)表(TEST_TB01和TEST_TB02)中連接字段相等的記錄。
SQL語句:
SELECT * FROM TEST_TB01 aa JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
2.在SQL中使用INNER JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用INNER JOIN連接,只返回兩個(gè)表(TEST_TB01和TEST_TB02)中連接字段相等的記錄。INNER JOIN和JOIN效果等價(jià)。
SQL語句:
SELECT * FROM TEST_TB01 aa INNER JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
3.在SQL中使用LEFT JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用LEFT JOIN連接,左連接,返回左表(TEST_TB01)中所有的記錄以及右表(TEST_TB02)中連接字段相等的記錄。
SQL語句:
SELECT * FROM TEST_TB01 aa LEFT JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
4.在SQL中使用LEFT OUTER JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用LEFT OUTER JOIN連接,左外連接,返回左表(TEST_TB01)中所有的記錄以及右表(TEST_TB02)中連接字段相等的記錄。LEFT OUTER JOIN
和LEFT JOIN等價(jià)。
SQL語句:
SELECT * FROM TEST_TB01 aa LEFT OUTER JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
5.在SQL中使用RIGHT JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用RIGHT JOIN連接,右連接,返回右表(TEST_TB02)中所有的記錄以及左表(TEST_TB01)中連接字段相等的記錄
SQL語句:
SELECT * FROM TEST_TB01 aa RIGHT JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
6.在SQL中使用FULL JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用FULL JOIN連接,外連接,返回兩個(gè)表中的行:LEFT JOIN + RIGHT JOIN所有行記錄。
SQL語句:
SELECT * FROM TEST_TB01 aa FULL JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
四、SQL語句中使用JOIN有重復(fù)數(shù)據(jù)情況
在SQL語句中使用JOIN有重復(fù)數(shù)據(jù)情況,即在TEST_TB01和TEST_TB02表中均有重復(fù)數(shù)據(jù)情況。分別使用JOIN、INNER JOIN、LEFT JOIN、LEFT OUTER JOIN、RIGHT JOIN、FULL JOIN驗(yàn)證。
在TEST_TB01插入數(shù)據(jù):
insert into TEST_TB01 (sensor_id,part_id) values(2101,9911); insert into TEST_TB01 (sensor_id,part_id) values(2102,9912); insert into TEST_TB01 (sensor_id,part_id) values(2103,9913); insert into TEST_TB01 (sensor_id,part_id) values(2104,9914); insert into TEST_TB01 (sensor_id,part_id) values(2105,9915); --造重復(fù)數(shù)據(jù) insert into TEST_TB01 (sensor_id,part_id) values(2102,9912); insert into TEST_TB01 (sensor_id,part_id) values(2103,9913);
在TEST_TB02插入數(shù)據(jù):
insert into TEST_TB02 (part_id,elem_id) values(9911,8901); insert into TEST_TB02 (part_id,elem_id) values(9912,8902); insert into TEST_TB02 (part_id,elem_id) values(9913,8903); insert into TEST_TB02 (part_id,elem_id) values(9916,8906); --造重復(fù)數(shù)據(jù) insert into TEST_TB02 (part_id,elem_id) values(9912,8902); insert into TEST_TB02 (part_id,elem_id) values(9913,8903);
查看TEST_TB01數(shù)據(jù):
查看TEST_TB02數(shù)據(jù):
1.在SQL中使用JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用JOIN連接,只返回兩個(gè)表(TEST_TB01和TEST_TB02)中連接字段相等的記錄。
SQL語句:
SELECT * FROM TEST_TB01 aa JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
2.在SQL中使用INNER JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用INNER JOIN連接,只返回兩個(gè)表(TEST_TB01和TEST_TB02)中連接字段相等的記錄。INNER JOIN和JOIN效果等價(jià)。
SQL語句:
SELECT * FROM TEST_TB01 aa INNER JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
3.在SQL中使用LEFT JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用LEFT JOIN連接,左連接,返回左表(TEST_TB01)中所有的記錄以及右表(TEST_TB02)中連接字段相等的記錄。
SQL語句:
SELECT * FROM TEST_TB01 aa LEFT JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
4.在SQL中使用LEFT OUTER JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用LEFT OUTER JOIN連接,左外連接,返回左表(TEST_TB01)中所有的記錄以及右表(TEST_TB02)中連接字段相等的記錄。LEFT OUTER JOIN
和LEFT JOIN等價(jià)。
SQL語句:
SELECT * FROM TEST_TB01 aa LEFT OUTER JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
5.在SQL中使用RIGHT JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用RIGHT JOIN連接,右連接,返回右表(TEST_TB02)中所有的記錄以及左表(TEST_TB01)中連接字段相等的記錄
SQL語句:
SELECT * FROM TEST_TB01 aa RIGHT JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
6.在SQL中使用FULL JOIN
TEST_TB01和TEST_TB02根據(jù)part_id使用FULL JOIN連接,外連接,返回兩個(gè)表中的行:LEFT JOIN + RIGHT JOIN所有行記錄。
SQL語句:
SELECT * FROM TEST_TB01 aa FULL JOIN TEST_TB02 bb ON aa.part_id = bb.part_id ORDER BY aa.sensor_id ASC;
執(zhí)行結(jié)果:
五、SQL中使用JOIN有重復(fù)與無重復(fù)數(shù)據(jù)區(qū)別
在SQL語句中使用JOIN有重復(fù)數(shù)據(jù)情況,使用JOIN連接,符合連接字段相等的記錄的結(jié)果集是笛卡爾積,第一個(gè)表的行數(shù)乘以第二個(gè)表的行數(shù)。
六、解決方式
1.先去重再使用JOIN連接
根據(jù)業(yè)務(wù)規(guī)則先對(duì)TEST_TB01和TEST_TB02分別去重再使用JOIN連接。
2.先使用JOIN連接再去重
根據(jù)業(yè)務(wù)規(guī)則先對(duì)TEST_TB01和TEST_TB02使用JOIN連接生成結(jié)果集,再對(duì)結(jié)果集去重。
3.建議
在生產(chǎn)環(huán)境特別是數(shù)據(jù)量大場(chǎng)景,推薦使用第一種方式,先逐個(gè)表去重再使用JOIN連接。
七、關(guān)系型數(shù)據(jù)庫驗(yàn)證表結(jié)構(gòu)
本例是在DataWorks環(huán)境(即MaxCompute大數(shù)據(jù)平臺(tái))下驗(yàn)證,即在關(guān)系型數(shù)據(jù)庫驗(yàn)證除表結(jié)構(gòu)差異,其它均相同。
在ORACLE數(shù)據(jù)庫建表語句:
create table TEST_TB01 ( sensor_id NUMBER(16), part_id NUMBER(16) ); create table TEST_TB02 ( part_id NUMBER(16), elem_id NUMBER(16) );
在MySQL數(shù)據(jù)庫建表語句:
CREATE TABLE TEST_TB01 ( sensor_id BIGINT, part_id BIGINT ); CREATE TABLE TEST_TB02 ( part_id BIGINT, elem_id BIGINT );
以上,感謝。
到此這篇關(guān)于SQL語句中JOIN的用法的文章就介紹到這了,更多相關(guān)SQL JOIN的用法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
通過系統(tǒng)數(shù)據(jù)庫獲取用戶所有數(shù)據(jù)庫中的視圖、表、存儲(chǔ)過程
本文主要講了通過系統(tǒng)數(shù)據(jù)庫獲取用戶所有數(shù)據(jù)庫中的視圖、表、存儲(chǔ)過程的方法,大家參考使用吧2014-04-04SqlServer編寫數(shù)據(jù)庫表的操作方式(建庫、建表、修改語句)
這篇文章主要介紹了SqlServer編寫數(shù)據(jù)庫表的操作方式(建庫、建表、修改語句)的相關(guān)資料,非常不錯(cuò),具有參考借鑒價(jià)值,需要的朋友可以參考下2016-09-09SQL Server 排序函數(shù) ROW_NUMBER和RANK 用法總結(jié)
下面的例子和SQL語句均在SQL Server 2008環(huán)境下運(yùn)行通過,使用SQL Server自帶的AdventureWorks數(shù)據(jù)庫。2009-07-07SQL Server2017使用IP作為服務(wù)器名連接服務(wù)器
本文主要介紹了SQL Server2017使用IP作為服務(wù)器名連接服務(wù)器,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-09-09SQL?Server?DATEDIFF()?函數(shù)用法
這篇文章主要介紹了SQL?Server?DATEDIFF()?函數(shù)的定義和用法,通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-12-12