欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Mysql去重的幾種方式分步講解

 更新時(shí)間:2022年12月06日 09:56:19   作者:leo825...  
SQL去重是數(shù)據(jù)分析工作中比較常見(jiàn)的一個(gè)場(chǎng)景,下面這篇文章主要給大家介紹了關(guān)于SQL去重的3種實(shí)用方法的相關(guān)資料,文中通過(guò)圖文以及實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下

前言

我們做數(shù)據(jù)分析的時(shí)候經(jīng)常會(huì)遇到去重問(wèn)題,下面總結(jié) sql 去重的幾種方式,后續(xù)如果還有再補(bǔ)充,大數(shù)據(jù)分析層面包括 hive、clickhouse 也可參考。

準(zhǔn)備

本文以 mysql 作為作為例子進(jìn)行 sql 去重的實(shí)現(xiàn)。首先準(zhǔn)備一張表:

創(chuàng)建表

t_score

create table t_score(
ts datetime,
id varchar(10),
name varchar(255),
score int(3)
)

datetime: 入庫(kù)時(shí)間

id :學(xué)號(hào)

name:姓名

soce :分?jǐn)?shù)

測(cè)試數(shù)據(jù)

insert into t_score value(now(), '101','zhangsan', 90);
insert into t_score value(now(), '101','zhangsan', 92);
insert into t_score value(now(), '101','zhangsan', 96);
insert into t_score value(now(), '102','lisi', 90);
insert into t_score value(now(), '102','lisi', 92);
insert into t_score value(now(), '103','wangwu', 96);

目標(biāo)

最終目標(biāo)是根據(jù)時(shí)間去重,將入庫(kù)時(shí)間最新的數(shù)據(jù)留下,id 重復(fù)的認(rèn)為是重復(fù)數(shù)據(jù)。

最終期望得到的結(jié)果為:

探索

distinct 去重

首先想到的就是 distinct 關(guān)鍵字去重,先要了解一下這個(gè)關(guān)鍵字的含義和用法。

含義:distinct用來(lái)查詢(xún)不重復(fù)記錄的條數(shù),即distinct來(lái)返回不重復(fù)字段的條數(shù)(count(distinct id)),其原因是distinct只能返回他的目標(biāo)字段,而無(wú)法返回其他字段。

用法注意:

1.distinct【查詢(xún)字段】,必須放在要查詢(xún)字段的開(kāi)頭,即放在第一個(gè)參數(shù);

2.只能在SELECT 語(yǔ)句中使用,不能在 INSERT, DELETE, UPDATE 中使用;

3.DISTINCT 表示對(duì)后面的所有參數(shù)的拼接取不重復(fù)的記錄,即查出的參數(shù)拼接每行記錄都是唯一的

4.不能與all同時(shí)使用,默認(rèn)情況下,查詢(xún)時(shí)返回的就是所有的結(jié)果。

使用 distinct 不能滿(mǎn)足我們的去重需求:

SELECT DISTINCT
	( id ),
	NAME,
	score 
FROM
	t_score

group by去重

group by 是分組去重,但是僅僅使用group by 也達(dá)不到去重求最新的目的

SELECT
	id,
	name,
	score 
FROM
	t_score 
GROUP BY
	id,
	name,
	score

實(shí)現(xiàn)方案

方案一

首先,取出來(lái)每行數(shù)據(jù)的最大時(shí)間(即最新時(shí)間),然后讓原表數(shù)據(jù)和最大時(shí)間做右連接,得到的就是最新的數(shù)據(jù)。

SELECT
  a0.*
FROM
  t_score a0
  RIGHT JOIN (
    SELECT
      max(ts) tsMax,
      id
    FROM
      t_score
    GROUP BY
      id
  ) b0 ON a0.ts = b0.tsMax
  AND a0.id = b0.id

方案二

方案二為方案一的變種,使用了exists 關(guān)鍵字來(lái)獲取時(shí)間上最新的數(shù)據(jù)

SELECT
  a0.*
FROM
  t_score a0
WHERE
  EXISTS (
    SELECT
      *
    FROM
      (
        SELECT
          max(ts) tsMax,
          id
        FROM
          t_score
        GROUP BY
          id
      ) b0
    WHERE
      b0.tsMax = a0.ts
      AND b0.id = a0.id
  )

方案三

使用 row_number() over (parttion by 分組列 order by 排序列) 方式

SELECT
	* 
FROM
	( SELECT *, row_number() over ( PARTITION BY id ORDER BY ts DESC ) num FROM t_score ) a0 
WHERE
	a0.num = 1

需要注意的是:MySQL從8.0開(kāi)始支持窗口函數(shù)

到此這篇關(guān)于Mysql去重的幾種方式分步講解的文章就介紹到這了,更多相關(guān)Mysql去重內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

最新評(píng)論