快捷導(dǎo)航

一文詳解小白也能懂的SQL高效去重技巧

更新時間：2025年07月06日 09:37:47 作者：一勺菠蘿丶

當(dāng)你的數(shù)據(jù)中有重復(fù)記錄時,如何快速找到每個分組的最新一條,一個優(yōu)雅的SQL查詢就能解決,下面小編就來和大家詳細(xì)講解一下SQL高效的去重技巧吧

生活中的例子

想象你管理一家網(wǎng)店，同一個訂單（order_number）中的同一商品（product）可能有多次更新記錄（比如庫存變化、價格調(diào)整）。你只想查看每個訂單商品的最新狀態(tài)，這時就需要用到"分組取最新記錄"的操作。

原理解析：給數(shù)據(jù)分組并編號

SELECT
  *,
  ROW_NUMBER() OVER (
    PARTITION BY order_number, product, craft, trade_name 
    ORDER BY create_time DESC
  ) AS rn
FROM client_product

這個查詢的核心是ROW_NUMBER()函數(shù)，它像老師給學(xué)生排隊一樣：

分組（PARTITION BY）：把相同訂單+產(chǎn)品+工藝+貿(mào)易名稱的記錄分成一組
排序（ORDER BY）：每組內(nèi)按創(chuàng)建時間倒序排列（最新時間排第一）
編號（rn）：給每組內(nèi)的記錄標(biāo)記序號（1,2,3…）

完整查詢解析

SELECT *
FROM (
  -- 步驟1：給所有記錄標(biāo)記組內(nèi)序號
  SELECT *,
    ROW_NUMBER() OVER (
      PARTITION BY order_number, product, craft, trade_name 
      ORDER BY create_time DESC
    ) AS rn
  FROM client_product
  WHERE 
    production_order_number IS NOT NULL  -- 排除生產(chǎn)訂單號為空
    AND order_number IS NOT NULL         -- 排除訂單號為空
    AND craft != ''                      -- 排除工藝為空
    AND del_flag = '0'                   -- 只取未刪除記錄
    AND deliver_status != '0'            -- 排除未交付狀態(tài)
) AS ranked
-- 步驟2：只取每組最新記錄
WHERE rn = 1

關(guān)鍵步驟拆解

1.數(shù)據(jù)過濾（WHERE）

只處理有效數(shù)據(jù)：非空訂單號、有生產(chǎn)訂單號、工藝不為空、未刪除、已交付

2.分組標(biāo)記（ROW_NUMBER）

訂單號	產(chǎn)品	創(chuàng)建時間	組內(nèi)序號(rn)
A1001	手機(jī)殼	2023-01-05	1（最新）
A1001	手機(jī)殼	2023-01-03	2
B2002	數(shù)據(jù)線	2023-01-04	1（最新）

3.篩選結(jié)果（WHERE rn=1）

只保留每組中rn=1的記錄，即每個組合的最新數(shù)據(jù)

實際應(yīng)用場景

訂單管理：獲取每個訂單的最新狀態(tài)
設(shè)備監(jiān)控：讀取每個傳感器的最新讀數(shù)
用戶行為：提取每個用戶最近一次登錄記錄
價格跟蹤：查看每個商品的最新定價

性能小貼士

當(dāng)數(shù)據(jù)量很大時：

在order_number, product, craft, trade_name上創(chuàng)建索引
在create_time上創(chuàng)建降序索引
定期清理歷史數(shù)據(jù)

方法補(bǔ)充

以下是幾種去重的SQL寫法

在 SQL 中，數(shù)據(jù)去重有多種實現(xiàn)方式，以下是幾種常見寫法及其適用場景：

1. 使用 DISTINCT 關(guān)鍵字

語法：

SELECT DISTINCT column1 [, column2, ...]  
FROM table_name;

說明：直接對指定字段組合進(jìn)行唯一性篩選，僅保留首次出現(xiàn)的記錄。

示例：

SELECT DISTINCT address FROM student; -- 獲取不重復(fù)的地址

局限性：

若對多字段去重，需所有字段值完全相同才視為重復(fù)。
無法同時返回非去重字段的原始值，僅能展示去重字段。

2. 使用 GROUP BY 子句

語法：

SELECT column1 [, aggregate_function(column2), ...]  
FROM table_name  
GROUP BY column1 [, column2, ...];

說明：按指定字段分組，結(jié)合聚合函數(shù)（如 MAX、MIN、COUNT 等）獲取其他字段信息。
示例：

SELECT MIN(id), address FROM student GROUP BY address; -- 按地址去重，返回每組最小 id

注意：非聚合字段可能來自不同記錄，導(dǎo)致數(shù)據(jù)邏輯上不一致（如不同 id 對應(yīng)同一 address 時，聚合函數(shù)外的字段取值無明確規(guī)律）。

3. 使用窗口函數(shù)（如 ROW_NUMBER()）

語法：

SELECT *  
FROM (  
    SELECT *, ROW_NUMBER() OVER (PARTITION BY column1 ORDER BY column2) AS rn  
    FROM table_name  
) AS t  
WHERE rn = 1;

說明：先按 PARTITION BY 分組，再按 ORDER BY 排序并生成行號，篩選行號為 1 的記錄。

示例：

SELECT id, name, address  
FROM (  
    SELECT *, ROW_NUMBER() OVER (PARTITION BY address ORDER BY id ASC) AS rn  
    FROM student  
) AS a  
WHERE a.rn = 1; -- 按地址去重，保留每組 id 最小的記錄

優(yōu)勢：可精準(zhǔn)控制保留哪條記錄（如按時間、ID 排序取最新或最舊），但低版本 MySQL 不支持窗口函數(shù)。

4. 使用 IN 子查詢

語法：

SELECT *  
FROM table_name  
WHERE id IN (SELECT MAX(id) FROM table_name GROUP BY column1);

說明：通過子查詢找到每組唯一標(biāo)識字段（如自增 id）的最大值，再篩選主表中對應(yīng)記錄。

示例：

SELECT * FROM student WHERE id IN (SELECT MAX(id) FROM student GROUP BY address); -- 按地址去重，取每組最大 id 的記錄

適用場景：表中存在唯一標(biāo)識字段（如 id），且需保留特定條件（如最大 / 最小 id）的記錄。

5. 使用 NOT EXISTS

語法：

SELECT a.*  
FROM table_name a  
WHERE NOT EXISTS (  
    SELECT 1 FROM table_name b  
    WHERE a.column1 = b.column1 AND a.id < b.id  
);

示例：

SELECT a.* FROM student a WHERE NOT EXISTS (SELECT 1 FROM student b WHERE a.address = b.address AND a.id < b.id); -- 按地址去重，保留每組 id 最大的記錄

邏輯：對于每一行 a，若不存在 b 行（同 column1 且 id 更大），則保留 a。

6. 使用 UNION 去重

語法：

SELECT column1 [, column2, ...]  
FROM table_name1  
UNION  
SELECT column1 [, column2, ...]  
FROM table_name2;

說明：合并多個查詢結(jié)果并自動去重（UNION ALL 保留全部記錄，不進(jìn)行去重）。

示例：

SELECT address FROM student UNION SELECT address FROM teacher; -- 合并兩表地址并去重

注意：大數(shù)據(jù)量時效率較低，建議先用 UNION ALL 再結(jié)合其他方法去重。

7. 使用 INNER JOIN + GROUP BY

語法：

SELECT a.*  
FROM table_name a  
INNER JOIN (  
    SELECT column1, MAX(id) AS max_id  
    FROM table_name  
    GROUP BY column1  
) b ON a.column1 = b.column1 AND a.id = b.max_id;

示例：

SELECT a.* FROM student a  
INNER JOIN (SELECT address, MAX(id) AS max_id FROM student GROUP BY address) b  
ON a.address = b.address AND a.id = b.max_id; -- 按地址去重，取每組最大 id 的記錄

邏輯：先通過子查詢獲取每組最大 id，再與主表關(guān)聯(lián)篩選。

實際應(yīng)用中，可根據(jù)數(shù)據(jù)庫特性（如是否支持窗口函數(shù)）、數(shù)據(jù)規(guī)模、業(yè)務(wù)需求（如保留特定記錄）選擇合適的方法。例如，簡單單字段去重優(yōu)先用 DISTINCT；需保留其他字段且數(shù)據(jù)一致性要求不高時用 GROUP BY；需精準(zhǔn)控制保留記錄時用窗口函數(shù)或 IN/NOT EXISTS 等。