Mysql去重的幾種方式分步講解
前言
我們做數(shù)據(jù)分析的時(shí)候經(jīng)常會(huì)遇到去重問(wèn)題,下面總結(jié) sql 去重的幾種方式,后續(xù)如果還有再補(bǔ)充,大數(shù)據(jù)分析層面包括 hive、clickhouse 也可參考。
準(zhǔn)備
本文以 mysql 作為作為例子進(jìn)行 sql 去重的實(shí)現(xiàn)。首先準(zhǔn)備一張表:
創(chuàng)建表
t_score
create table t_score( ts datetime, id varchar(10), name varchar(255), score int(3) )
datetime: 入庫(kù)時(shí)間
id :學(xué)號(hào)
name:姓名
soce :分?jǐn)?shù)
測(cè)試數(shù)據(jù)
insert into t_score value(now(), '101','zhangsan', 90); insert into t_score value(now(), '101','zhangsan', 92); insert into t_score value(now(), '101','zhangsan', 96); insert into t_score value(now(), '102','lisi', 90); insert into t_score value(now(), '102','lisi', 92); insert into t_score value(now(), '103','wangwu', 96);
目標(biāo)
最終目標(biāo)是根據(jù)時(shí)間去重,將入庫(kù)時(shí)間最新的數(shù)據(jù)留下,id 重復(fù)的認(rèn)為是重復(fù)數(shù)據(jù)。
最終期望得到的結(jié)果為:
探索
distinct 去重
首先想到的就是 distinct 關(guān)鍵字去重,先要了解一下這個(gè)關(guān)鍵字的含義和用法。
含義:distinct用來(lái)查詢(xún)不重復(fù)記錄的條數(shù),即distinct來(lái)返回不重復(fù)字段的條數(shù)(count(distinct id)),其原因是distinct只能返回他的目標(biāo)字段,而無(wú)法返回其他字段。
用法注意:
1.distinct【查詢(xún)字段】,必須放在要查詢(xún)字段的開(kāi)頭,即放在第一個(gè)參數(shù);
2.只能在SELECT 語(yǔ)句中使用,不能在 INSERT, DELETE, UPDATE 中使用;
3.DISTINCT 表示對(duì)后面的所有參數(shù)的拼接取不重復(fù)的記錄,即查出的參數(shù)拼接每行記錄都是唯一的
4.不能與all同時(shí)使用,默認(rèn)情況下,查詢(xún)時(shí)返回的就是所有的結(jié)果。
使用 distinct 不能滿(mǎn)足我們的去重需求:
SELECT DISTINCT ( id ), NAME, score FROM t_score
group by去重
group by 是分組去重,但是僅僅使用group by 也達(dá)不到去重求最新的目的
SELECT id, name, score FROM t_score GROUP BY id, name, score
實(shí)現(xiàn)方案
方案一
首先,取出來(lái)每行數(shù)據(jù)的最大時(shí)間(即最新時(shí)間),然后讓原表數(shù)據(jù)和最大時(shí)間做右連接,得到的就是最新的數(shù)據(jù)。
SELECT a0.* FROM t_score a0 RIGHT JOIN ( SELECT max(ts) tsMax, id FROM t_score GROUP BY id ) b0 ON a0.ts = b0.tsMax AND a0.id = b0.id
方案二
方案二為方案一的變種,使用了exists 關(guān)鍵字來(lái)獲取時(shí)間上最新的數(shù)據(jù)
SELECT a0.* FROM t_score a0 WHERE EXISTS ( SELECT * FROM ( SELECT max(ts) tsMax, id FROM t_score GROUP BY id ) b0 WHERE b0.tsMax = a0.ts AND b0.id = a0.id )
方案三
使用 row_number() over (parttion by 分組列 order by 排序列) 方式
SELECT * FROM ( SELECT *, row_number() over ( PARTITION BY id ORDER BY ts DESC ) num FROM t_score ) a0 WHERE a0.num = 1
需要注意的是:MySQL從8.0開(kāi)始支持窗口函數(shù)
到此這篇關(guān)于Mysql去重的幾種方式分步講解的文章就介紹到這了,更多相關(guān)Mysql去重內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
MySQL查詢(xún)語(yǔ)句過(guò)程和EXPLAIN語(yǔ)句基本概念及其優(yōu)化
在MySQL中我們經(jīng)常會(huì)使用到一些查詢(xún)語(yǔ)句,如果使用合適的索引會(huì)大大簡(jiǎn)化和加速查找,下面小編來(lái)和大家一起學(xué)習(xí)一下知識(shí)2019-05-05解決MYSQL數(shù)據(jù)庫(kù)命令行分號(hào)不能結(jié)束語(yǔ)句的問(wèn)題
這篇文章主要介紹了解決MYSQL數(shù)據(jù)庫(kù)命令行分號(hào)不能結(jié)束語(yǔ)句的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-01-01MySQL 處理重復(fù)數(shù)據(jù)的方法(防止、刪除)
這篇文章主要介紹了MySQL 處理重復(fù)數(shù)據(jù)的方法,文中示例代碼非常詳細(xì),幫助大家更好的理解和學(xué)習(xí),感興趣的朋友可以了解下2020-07-07MySQL子查詢(xún)?cè)斀?單行子查詢(xún)、多行子查詢(xún)與相關(guān)子查詢(xún))
所謂子查詢(xún)是指在一個(gè)查詢(xún)中嵌套了其他的若干查詢(xún),即在一個(gè)SELECT查詢(xún)語(yǔ)句的WHERE或FROM子句中包含另一個(gè)SELECT查詢(xún)語(yǔ)句,下面這篇文章主要給大家介紹了關(guān)于MySQL單行子查詢(xún)、多行子查詢(xún)與相關(guān)子查詢(xún)的相關(guān)資料,需要的朋友可以參考下2022-09-09使用prometheus統(tǒng)計(jì)MySQL自增主鍵的剩余可用百分比
這篇文章主要介紹了使用prometheus統(tǒng)計(jì)MySQL自增主鍵的剩余可用百分比,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-04-04介紹一個(gè)針對(duì)C++程序的MySQL訪(fǎng)問(wèn)庫(kù)soci
這篇文章主要介紹了介紹一個(gè)針對(duì)C++程序的MySQL訪(fǎng)問(wèn)庫(kù)soci,文章中還講了其中的一些操作方法,需要的朋友可以參考下2015-05-05linux mysql忘記密碼的多種解決或Access denied for user ''root''@''local
linux mysql忘記密碼的多種解決方法。2009-07-07