一文詳解小白也能懂的SQL高效去重技巧
生活中的例子
想象你管理一家網(wǎng)店,同一個訂單(order_number)中的同一商品(product)可能有多次更新記錄(比如庫存變化、價格調(diào)整)。你只想查看每個訂單商品的最新狀態(tài),這時就需要用到"分組取最新記錄"的操作。
原理解析:給數(shù)據(jù)分組并編號
SELECT
*,
ROW_NUMBER() OVER (
PARTITION BY order_number, product, craft, trade_name
ORDER BY create_time DESC
) AS rn
FROM client_product
這個查詢的核心是ROW_NUMBER()函數(shù),它像老師給學(xué)生排隊一樣:
- 分組(PARTITION BY):把相同訂單+產(chǎn)品+工藝+貿(mào)易名稱的記錄分成一組
- 排序(ORDER BY):每組內(nèi)按創(chuàng)建時間倒序排列(最新時間排第一)
- 編號(rn):給每組內(nèi)的記錄標(biāo)記序號(1,2,3…)
完整查詢解析
SELECT *
FROM (
-- 步驟1:給所有記錄標(biāo)記組內(nèi)序號
SELECT *,
ROW_NUMBER() OVER (
PARTITION BY order_number, product, craft, trade_name
ORDER BY create_time DESC
) AS rn
FROM client_product
WHERE
production_order_number IS NOT NULL -- 排除生產(chǎn)訂單號為空
AND order_number IS NOT NULL -- 排除訂單號為空
AND craft != '' -- 排除工藝為空
AND del_flag = '0' -- 只取未刪除記錄
AND deliver_status != '0' -- 排除未交付狀態(tài)
) AS ranked
-- 步驟2:只取每組最新記錄
WHERE rn = 1
關(guān)鍵步驟拆解
1.數(shù)據(jù)過濾(WHERE)
只處理有效數(shù)據(jù):非空訂單號、有生產(chǎn)訂單號、工藝不為空、未刪除、已交付
2.分組標(biāo)記(ROW_NUMBER)
| 訂單號 | 產(chǎn)品 | 創(chuàng)建時間 | 組內(nèi)序號(rn) |
|---|---|---|---|
| A1001 | 手機(jī)殼 | 2023-01-05 | 1(最新) |
| A1001 | 手機(jī)殼 | 2023-01-03 | 2 |
| B2002 | 數(shù)據(jù)線 | 2023-01-04 | 1(最新) |
3.篩選結(jié)果(WHERE rn=1)
只保留每組中rn=1的記錄,即每個組合的最新數(shù)據(jù)
實際應(yīng)用場景
- 訂單管理:獲取每個訂單的最新狀態(tài)
- 設(shè)備監(jiān)控:讀取每個傳感器的最新讀數(shù)
- 用戶行為:提取每個用戶最近一次登錄記錄
- 價格跟蹤:查看每個商品的最新定價
性能小貼士
當(dāng)數(shù)據(jù)量很大時:
- 在
order_number, product, craft, trade_name上創(chuàng)建索引 - 在
create_time上創(chuàng)建降序索引 - 定期清理歷史數(shù)據(jù)
方法補(bǔ)充
以下是幾種去重的SQL寫法
在 SQL 中,數(shù)據(jù)去重有多種實現(xiàn)方式,以下是幾種常見寫法及其適用場景:
1. 使用 DISTINCT 關(guān)鍵字
語法:
SELECT DISTINCT column1 [, column2, ...] FROM table_name;
說明:直接對指定字段組合進(jìn)行唯一性篩選,僅保留首次出現(xiàn)的記錄。
示例:
SELECT DISTINCT address FROM student; -- 獲取不重復(fù)的地址
局限性:
- 若對多字段去重,需所有字段值完全相同才視為重復(fù)。
- 無法同時返回非去重字段的原始值,僅能展示去重字段。
2. 使用 GROUP BY 子句
語法:
SELECT column1 [, aggregate_function(column2), ...] FROM table_name GROUP BY column1 [, column2, ...];
說明:按指定字段分組,結(jié)合聚合函數(shù)(如 MAX、MIN、COUNT 等)獲取其他字段信息。
示例:
SELECT MIN(id), address FROM student GROUP BY address; -- 按地址去重,返回每組最小 id
注意:非聚合字段可能來自不同記錄,導(dǎo)致數(shù)據(jù)邏輯上不一致(如不同 id 對應(yīng)同一 address 時,聚合函數(shù)外的字段取值無明確規(guī)律)。
3. 使用窗口函數(shù)(如 ROW_NUMBER())
語法:
SELECT *
FROM (
SELECT *, ROW_NUMBER() OVER (PARTITION BY column1 ORDER BY column2) AS rn
FROM table_name
) AS t
WHERE rn = 1;
說明:先按 PARTITION BY 分組,再按 ORDER BY 排序并生成行號,篩選行號為 1 的記錄。
示例:
SELECT id, name, address
FROM (
SELECT *, ROW_NUMBER() OVER (PARTITION BY address ORDER BY id ASC) AS rn
FROM student
) AS a
WHERE a.rn = 1; -- 按地址去重,保留每組 id 最小的記錄
優(yōu)勢:可精準(zhǔn)控制保留哪條記錄(如按時間、ID 排序取最新或最舊),但低版本 MySQL 不支持窗口函數(shù)。
4. 使用 IN 子查詢
語法:
SELECT * FROM table_name WHERE id IN (SELECT MAX(id) FROM table_name GROUP BY column1);
說明:通過子查詢找到每組唯一標(biāo)識字段(如自增 id)的最大值,再篩選主表中對應(yīng)記錄。
示例:
SELECT * FROM student WHERE id IN (SELECT MAX(id) FROM student GROUP BY address); -- 按地址去重,取每組最大 id 的記錄
適用場景:表中存在唯一標(biāo)識字段(如 id),且需保留特定條件(如最大 / 最小 id)的記錄。
5. 使用 NOT EXISTS
語法:
SELECT a.*
FROM table_name a
WHERE NOT EXISTS (
SELECT 1 FROM table_name b
WHERE a.column1 = b.column1 AND a.id < b.id
);
示例:
SELECT a.* FROM student a WHERE NOT EXISTS (SELECT 1 FROM student b WHERE a.address = b.address AND a.id < b.id); -- 按地址去重,保留每組 id 最大的記錄
邏輯:對于每一行 a,若不存在 b 行(同 column1 且 id 更大),則保留 a。
6. 使用 UNION 去重
語法:
SELECT column1 [, column2, ...] FROM table_name1 UNION SELECT column1 [, column2, ...] FROM table_name2;
說明:合并多個查詢結(jié)果并自動去重(UNION ALL 保留全部記錄,不進(jìn)行去重)。
示例:
SELECT address FROM student UNION SELECT address FROM teacher; -- 合并兩表地址并去重
注意:大數(shù)據(jù)量時效率較低,建議先用 UNION ALL 再結(jié)合其他方法去重。
7. 使用 INNER JOIN + GROUP BY
語法:
SELECT a.*
FROM table_name a
INNER JOIN (
SELECT column1, MAX(id) AS max_id
FROM table_name
GROUP BY column1
) b ON a.column1 = b.column1 AND a.id = b.max_id; 示例:
SELECT a.* FROM student a INNER JOIN (SELECT address, MAX(id) AS max_id FROM student GROUP BY address) b ON a.address = b.address AND a.id = b.max_id; -- 按地址去重,取每組最大 id 的記錄
邏輯:先通過子查詢獲取每組最大 id,再與主表關(guān)聯(lián)篩選。
實際應(yīng)用中,可根據(jù)數(shù)據(jù)庫特性(如是否支持窗口函數(shù))、數(shù)據(jù)規(guī)模、業(yè)務(wù)需求(如保留特定記錄)選擇合適的方法。例如,簡單單字段去重優(yōu)先用 DISTINCT;需保留其他字段且數(shù)據(jù)一致性要求不高時用 GROUP BY;需精準(zhǔn)控制保留記錄時用窗口函數(shù)或 IN/NOT EXISTS 等。
總結(jié)
這個查詢就像給每個分組內(nèi)的記錄按時間倒序排隊,然后只取排在第一位的記錄
通過這個技巧,你可以輕松地從重復(fù)數(shù)據(jù)中提取最新記錄,讓數(shù)據(jù)清洗和分析變得更高效!下次遇到類似需求時,不妨試試這個強(qiáng)大的ROW_NUMBER()函數(shù)吧!
(注:實際使用時需根據(jù)業(yè)務(wù)需求調(diào)整分組字段和排序規(guī)則)
到此這篇關(guān)于一文詳解小白也能懂的SQL高效去重技巧的文章就介紹到這了,更多相關(guān)SQL去重內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
mysql行鎖(for update)解決高并發(fā)問題
這篇文章主要介紹了mysql行鎖(for update)解決高并發(fā)問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-08-08
DBeaver連接mysql數(shù)據(jù)庫圖文教程(超詳細(xì))
本文主要介紹了DBeaver連接mysql數(shù)據(jù)庫圖文教程,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-07-07
mysql如何根據(jù).frm和.ibd文件恢復(fù)數(shù)據(jù)表
這篇文章主要介紹了mysql根據(jù).frm和.ibd文件恢復(fù)數(shù)據(jù)表的操作方法,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2023-07-07
MySQL中crash safe數(shù)據(jù)完整性機(jī)制面試精講
這篇文章主要為大家介紹了MySQL數(shù)據(jù)完整性crash safe特性面試精講,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-10-10

