MySQL去重中distinct和group?by的區(qū)別淺析
今天在寫業(yè)務(wù)需要對(duì)數(shù)據(jù)庫(kù)重復(fù)字段進(jìn)行去重時(shí),因?yàn)槭侨ブ兀紫认氲降氖莇istinct關(guān)鍵字。于是一小時(shí)過去了。。。。(菜鳥一個(gè),大家輕點(diǎn)罵)
我把問題的過程用sql語句演示給大家演示一下
首先我使用的是mybatis-plus,代碼如下
QueryWrapper<ProjectCompany> wrapper = new QueryWrapper<>(); wrapper.select("DISTINCT project_id,company_id,company_name,is_delete").eq("project_id",projectId).eq("is_delete","0");
即 "DISTINCT project_id,company_id,company_name,is_delete"
查出的結(jié)果
id=null。這是我不希望看到的。沒有id的話,下面的業(yè)務(wù)就不好走了。
于是我在distinct后面加上了id,distinct查出來的數(shù)據(jù)就是全部數(shù)據(jù)了,相當(dāng)于distinct沒起作用。冥思苦想一小時(shí)。。。。
后來想到了group by分組,于是用了一下
LambdaQueryWrapper<ProjectCompany> wrapper = new LambdaQueryWrapper<>(); wrapper.eq(ProjectCompany::getProjectId,projectId).eq(ProjectCompany::getIsDelete,"0").groupBy(ProjectCompany::getProjectId);
發(fā)現(xiàn)查出來的數(shù)據(jù)也進(jìn)行去重了,id也有值
所以就很好奇 distinct和group by有啥區(qū)別,大概總結(jié)以下幾點(diǎn):
distinct適合查單個(gè)字段去重,支持單列、多列的去重方式。 單列去重的方式簡(jiǎn)明易懂,即相同值只保留1個(gè)。
多列的去重則是根據(jù)指定的去重的列信息來進(jìn)行,即只有所有指定的列信息都相同,才會(huì)被認(rèn)為是重復(fù)的信息。
而 group by 可以針對(duì)要查詢的全部字段中的部分字段去重,它的作用主要是:獲取數(shù)據(jù)表中以分組字段為依據(jù)的其他統(tǒng)計(jì)數(shù)據(jù)。
補(bǔ)充:MySQL中distinct和group by去重性能對(duì)比
前言
- MySQL:5.7.17
- 存儲(chǔ)引擎:InnoDB
- 實(shí)驗(yàn)?zāi)康模罕疚闹饕獪y(cè)試在某字段有無索引、各種不同值個(gè)數(shù)情況下,記錄對(duì)此字段其使用
DISTINCT/GROUP BY
去重的查詢語句執(zhí)行時(shí)間,對(duì)比兩者在不同場(chǎng)景下的去重性能,實(shí)驗(yàn)過程中關(guān)閉MySQL查詢緩存。 - 實(shí)驗(yàn)表格:
表名 | 記錄數(shù) | 查詢字段有無索引 | 查詢字段不同值個(gè)數(shù) | DISTINCT | GROUP BY |
---|---|---|---|---|---|
tab_1 | 100000 | N | 3 | ||
tab_2 | 100000 | Y | 3 | ||
tab_3 | 100000 | N | 10000 | ||
tab_4 | 100000 | Y | 10000 |
實(shí)驗(yàn)過程
1)創(chuàng)建測(cè)試表
表創(chuàng)建語句:
DROP TABLE IF EXISTS `tab_1`; CREATE TABLE `tab_1` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `value` int(10) unsigned NOT NULL, PRIMARY KEY (`id`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8; DROP TABLE IF EXISTS `tab_2`; CREATE TABLE `tab_2` ( `id` int(10) unsigned NOT NULL AUTO_INCREMENT, `value` int(10) unsigned NOT NULL, PRIMARY KEY (`id`), KEY `idx_value` (`value`) ) ENGINE=InnoDB DEFAULT CHARSET=utf8; DROP TABLE IF EXISTS `tab_3`; CREATE TABLE `tab_3` LIKE `tab_1`; DROP TABLE IF EXISTS `tab_4`; CREATE TABLE `tab_4` LIKE `tab_2`;
2)生成測(cè)試數(shù)據(jù)
表數(shù)據(jù)插入過程:
DROP PROCEDURE IF EXISTS generateRandomData; delimiter $$ -- tblName為插入表,field為插入字段,num為插入字段值上限,count為插入的記錄數(shù) CREATE PROCEDURE generateRandomData(IN tblName VARCHAR(30),IN field VARCHAR(30),IN num INT UNSIGNED,IN count INT UNSIGNED) BEGIN -- 聲明循環(huán)變量 DECLARE i INT UNSIGNED DEFAULT 1; -- 循環(huán)插入隨機(jī)整數(shù)1~num,共插入count條數(shù)據(jù) w1:WHILE i<=count DO set i=i+1; set @val = FLOOR(RAND()*num+1); set @statement = CONCAT('INSERT INTO ',tblName,'(`',field,'`) VALUES(',@val,')'); PREPARE stmt FROM @statement; EXECUTE stmt; END WHILE w1; END $$ delimiter ;
調(diào)用過程隨機(jī)生成測(cè)試數(shù)據(jù):
call generateRandomData('tab_1','value',3,100000); INSERT INTO tab_2 SELECT * FROM tab_1; call generateRandomData('tab_3','value',10000,100000); INSERT INTO tab_4 SELECT * FROM tab_3;
3)執(zhí)行查詢語句,記錄執(zhí)行時(shí)間
查詢語句及對(duì)應(yīng)執(zhí)行時(shí)間如下:
SELECT DISTINCT(`value`) FROM tab_1; SELECT `value` FROM tab_1 GROUP BY `value`; SELECT DISTINCT(`value`) FROM tab_2; SELECT `value` FROM tab_2 GROUP BY `value`; SELECT DISTINCT(`value`) FROM tab_3; SELECT `value` FROM tab_3 GROUP BY `value`; SELECT DISTINCT(`value`) FROM tab_4; SELECT `value` FROM tab_4 GROUP BY `value`;
4)實(shí)驗(yàn)結(jié)果
表名 | 記錄數(shù) | 查詢字段有無索引 | 查詢字段不同值個(gè)數(shù) | DISTINCT | GROUP BY |
---|---|---|---|---|---|
tab_1 | 100000 | N | 3 | 0.058s | 0.059s |
tab_2 | 100000 | Y | 3 | 0.030s | 0.027s |
tab_3 | 100000 | N | 10000 | 0.072s | 0.073s |
tab_4 | 100000 | Y | 10000 | 0.047s | 0.049s |
實(shí)驗(yàn)結(jié)論
MySQL 5.7.17中使用distinct和group by進(jìn)行去重時(shí),性能相差不大
實(shí)驗(yàn)過程及結(jié)論,如有不足之處,歡迎指正,此實(shí)驗(yàn)結(jié)論僅供參考。
總結(jié)
到此這篇關(guān)于MySQL去重中distinct和group by區(qū)別淺析的文章就介紹到這了,更多相關(guān)MySQL去重distinct和group by區(qū)別內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
MYSQL5.7 全文檢索中文無返回?cái)?shù)據(jù)的問題解決
本文介紹了MYSQL5.7 全文檢索中文無返回?cái)?shù)據(jù)的問題解決,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2025-01-01使用JS+HTML/CSS實(shí)現(xiàn)虛擬滾動(dòng)和分頁加載效果
虛擬滾動(dòng)和分頁加載是一種優(yōu)化大型數(shù)據(jù)集的常見技術(shù),用于在Web應(yīng)用程序中提高性能和用戶體驗(yàn),在本文中,我將演示如何使用JavaScript和HTML/CSS來實(shí)現(xiàn)虛擬滾動(dòng)和分頁加載,同時(shí)提供示例代碼和詳細(xì)解釋,需要的朋友可以參考下2023-10-10Mysql中校對(duì)集utf8_unicode_ci與utf8_general_ci的區(qū)別說明
一直對(duì)utf8_unicode_ci與utf8_general_ci這2個(gè)校對(duì)集很迷惑,今天查了手冊(cè)有了點(diǎn)眉目。不過對(duì)中文字符集來說采用utf8_unicode_ci與utf8_general_ci時(shí)有何區(qū)別還是不清楚2012-03-03使用limit,offset分頁場(chǎng)景時(shí)為什么會(huì)慢
這篇文章主要介紹了使用limit,offset分頁場(chǎng)景時(shí)為什么會(huì)慢,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-11-11Windows系統(tǒng)下MySQL8.0.21安裝教程(圖文詳解)
這篇文章主要介紹了Windows系統(tǒng)下MySQL8.0.21安裝教程,本文通過圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-08-08