如何優(yōu)化sql中的orderBy語句
在使用數(shù)據(jù)庫進行數(shù)據(jù)查詢時,難免會遇到基于某些字段對查詢的結(jié)果集進行排序的需求。在sql中通常使用orderby語句來實現(xiàn)。將需要排序的字段放到 該關(guān)鍵詞后,如果有多個字段的話,就用","分割。
select * from table t order by t.column1,t.column2;
上面的sql表示查詢表table中數(shù)據(jù),然后先按照column1排序,如果column1相同的話,在按照column2排序,排序的方式默認是降序。當(dāng)然排序方式也是可以指定的。在被排序字段后添加 DESC,ASE,分別表示降序和升序。
使用該orderby可以很方便的實現(xiàn)日常的排序操作。使用的多了,不知道你有沒有遇到過這種場景:有時候使用orderby后,sql執(zhí)行效率非常慢,有時候卻比較快,由于整天被curd纏身,也沒有時間研究,反正就是覺得很神奇。趁這個周末比較閑,就來研究下,mysql中orderby是怎么實現(xiàn)的。
為了方便描述,我們先建立一個數(shù)據(jù)表 t1,如下:
CREATE TABLE `t1` ( `id` int(11) NOT NULL not null auto_increment, `a` int(11) DEFAULT NULL, `b` int(11) DEFAULT NULL, `c` int(11) DEFAULT NULL, PRIMARY KEY (`id`) , KEY `a` (`a`) USING BTREE ) ENGINE=InnoDB;
并插入數(shù)據(jù):
insert into t1 (a,b,c) values (1,1,3); insert into t1 (a,b,c) values (1,4,5); insert into t1 (a,b,c) values (1,3,3); insert into t1 (a,b,c) values (1,3,4); insert into t1 (a,b,c) values (1,2,5); insert into t1 (a,b,c) values (1,3,6);
為了使索引生效,插入10000行 7,7,7,無關(guān)數(shù)據(jù),數(shù)據(jù)量少的情況下,會直接全表掃描
insert into t1 (a,b,c) values (7,7,7);
我們現(xiàn)在需要查找 a=1的所有記錄,然后按照b字段進行排序。
查詢sql為
select a,b,c from t1 where a = 1 order by b limit 2;
為了防止在查詢過程中全表掃描,我們在字段a上添加了索引。
首先我們先通過語句
explain select a,b,c from t1 where a = 1 order by b lmit 2;
查看sql的執(zhí)行計劃,如下所示:
在extra中我們可以看到出現(xiàn)了Using filesort,這個表示 該sql執(zhí)行過程中,執(zhí)行了排序操作,排序操作在 sort_buffer中完成,sort_buffer是mysql分配給每個線程的一個內(nèi)存緩沖區(qū),該緩沖區(qū)專門用來完成排序,大小默認是1M,其大小由變量 sort_buffer_size 進行控制。
mysql在對orderby進行實現(xiàn)時,根據(jù)放入到sort_buffer中的字段內(nèi)容不同,進行了兩種不同實現(xiàn)方式:全字段排序和rowid排序。
全字段排序
首先我們先通過一張圖整體看一下sql執(zhí)行過程:
mysql先根據(jù)查詢條件確定需要排序的數(shù)據(jù)集,也就是表中 a=1的數(shù)據(jù)集,即主鍵id從1到6的這些記錄。
整個sql的執(zhí)行的過程如下:
1.創(chuàng)建并初始化sort_buffer,并確定需要放到該緩沖區(qū)中的字段,也就是a,b,c這三個字段。
2.從索引樹a中找到第一個滿足a=1的主鍵id,也就是id=1。
3.回表到id索引,取出整行數(shù)據(jù),然后從整行數(shù)據(jù)中,取出a,b,c的值,放入到sort_buffer中。
4.從索引a中按照順序找到下一個a=1的主鍵id。
5.重復(fù)步驟3和步驟4,直到獲取到最后一個a=1的記錄,也就是主鍵id=5。
6.此時滿足條件a=1的所有記錄的 a,b,c字段,全部讀放到了sort_buffer中,然后,對這些數(shù)據(jù)按照b的值進行進行排序,排序的方式是快速排序。就是那個面試經(jīng)常面到的快速排序,時間復(fù)雜度為log2n的快速排序。
7.然后從排序后的結(jié)果集中取出前2行數(shù)據(jù)。
上面是就是msql中orderby的執(zhí)行流程。因為放入到sort_buffer中的數(shù)據(jù)是需要輸出的全部字段,所以這種排序被稱為全排序。
看到這里不知道你是否會有疑問?如果需要排序的數(shù)據(jù)量很大的話,sort_buffer裝不下怎么辦?
的確,如果a=1的數(shù)據(jù)行特別多,且需要存放到sort_buffer中的字段比較多,可能不止a,b,c三個字段,有些業(yè)務(wù)可能需要輸出更多字段。那么默認大小只有1M的sort_buffer很可能容納不下。
當(dāng)sort_buffer容納不下的時候,mysql會創(chuàng)建一批臨時的磁盤文件來輔助排序。默認情況下會創(chuàng)建12個臨時文件,將需要排序的數(shù)據(jù)分成12份,每一份單獨排序,形成12個內(nèi)部數(shù)據(jù)有序的文件,然后把這12個有序文件在合并成一個有序的大文件,最終完成數(shù)據(jù)的排序。
基于文件的排序,相比基于內(nèi)存的排序,排序效率要低很多,為了提高排序的效率,應(yīng)該盡量避免基于文件的排序,要想避免基于文件排序,就需要讓sort_buffer可以容納需要排序的數(shù)據(jù)量。
所以對于sort_buffer容納不下的情況,mysql進行了優(yōu)化。就是在排序時候,降低存放到sort_buffer中的字段個數(shù)。
具體優(yōu)化方式,就是下面的rowId排序
RowId 排序
在全字段排序?qū)崿F(xiàn)中,排序的過程中,要把需要輸出的字段全部放到sort_buffer中,當(dāng)輸出的字段比較多的時候,可以放到sort_buffer中的數(shù)據(jù)行就會變少。也就增大了sort_buffer無法容納數(shù)據(jù)的風(fēng)險,直至出現(xiàn)基于文件的排序。
rowId排序?qū)θ侄闻判虻膬?yōu)化手段,主要是減少了放到sort_buffer中字段個數(shù)。
在rowId排序中,只會將需要排序的字段和主鍵Id放到sort_buffer中。
select a,b,c from t1 where a = 1 order by b limit 2;
在rowId的排序中的執(zhí)行流程如下:
1.初始化并創(chuàng)建sort_buffer,并確認要放入的的字段,id和b。
2.從索引樹a中找到第一個滿足a=1的主鍵id,也就是id=1。
3.回表主鍵索引id,取出整行數(shù)據(jù),從整行數(shù)據(jù)中取出id和b,存入sort_buffer中。
4.從索引a中取出下一條滿足a=1的 記錄的主鍵id。
5.重復(fù)步驟3和4,直到最后一個滿足a=1的主鍵id,也就是a=6。
6.對sort_buffer中的數(shù)據(jù),按照字段b排序。
7.從sort_buffer中的有序數(shù)據(jù)集中,取出前2個,因為此時取出的數(shù)據(jù)只有id和b,要想獲取a和c字段,需要根據(jù)id字段,回表到主鍵索引中取出整行數(shù)據(jù),從整行數(shù)據(jù)中獲取需要的數(shù)據(jù)。
根據(jù)rowId排序的執(zhí)行步驟,可以發(fā)現(xiàn):相比全字段排序,rowId排序的實現(xiàn)方式,減少了存放到sort_buffer中的數(shù)據(jù)量,降低了基于文件的外部排序的可能性。
那rowid排序有不足的地方嗎?肯定有的,要不然全字段排序就沒有存在的意義了。rowid排序不足之處在于,在最后的步驟7中,增加了回表的次數(shù),不過這個回表的次數(shù),取決于limit后的值,如果返回的結(jié)果集比較小的話,回表的次數(shù)還是比較小的。
mysql是如何在全字段排序和rowId排序的呢?其實是根據(jù)存放的sort_buffer中每行字段的長度決定的,如果mysql認為每次放到sort_buffer中的數(shù)據(jù)量很大的話,那么就用rowId排序?qū)崿F(xiàn),否則使用全字段排序。那么多大算大呢?這個大小的閾值有一個變量的值來決定,這個變量就是 max_length_for_sort_data。如果每次放到sort_buffer中的數(shù)據(jù)大小大于該字段值的話,就使用rowId排序,否則使用全字段排序。
orderby的優(yōu)化
上面講述了orderby的兩種排序的方式,以及一些優(yōu)化策略,優(yōu)化的目的主要就是避免基于磁盤文件的外部排序。因為基于磁盤文件的排序效率要遠低于基于sort_buffer的內(nèi)存排序。
但是當(dāng)數(shù)據(jù)量比較大的時候,即使sort_buffer比較大,所有數(shù)據(jù)全部放在內(nèi)存中排序,sql的整體執(zhí)行效率也不高,因為排序這個操作,本身就是比較消耗性能的。
試想,如果基于索引a獲取到所有a=1的數(shù)據(jù),按照字段b,天然就是有序的,那么就不用執(zhí)行排序操作,直接取出來的數(shù)據(jù),就是符合結(jié)果的數(shù)據(jù)集,那么sql的執(zhí)行效率就會大幅度增長。
其實要實現(xiàn)整個sql執(zhí)行過程中,避免排序操作也不難,只需要創(chuàng)建一個a和b的聯(lián)合索引即可。
alter table t1 add index a_b (a,b);
添加a和b的聯(lián)合索引后,sql執(zhí)行流程就變成了:
1.從索引樹(a,b)中找到第一個滿足a=1的主鍵id,也就是id=1。
2.回表到主鍵索引樹,取出整行數(shù)據(jù),并從中取出a,b,c,直接作為結(jié)果集的一部分返回。
3.從索引樹(a,b)上取出下一個滿足a=1的主鍵id。
4.重復(fù)步驟2和3,直到找到第二個滿足a=1的主鍵id,并回表獲取字段a,b,c。
此時我們可以通過查看sql的執(zhí)行計劃,來判斷sql的執(zhí)行過程中是否執(zhí)行了排序操作。
explain select a,b from t1 where a = 1 order by b lmit 2;
通過查看執(zhí)行計劃,我們發(fā)現(xiàn)extra中已經(jīng)沒有了using filesort了,也就是沒有執(zhí)行排序操作了。
其實還可以通過覆蓋索引,對該sql進一步優(yōu)化,通過在索引中覆蓋字段c,來避免回表的操作。
alter table t1 add index a_b_c (a,b,c);
添加索引a_b_c后,sql的執(zhí)行過程如下:
1.從索引樹(a,b,c)中找到第一個滿足a=1的索引,從中取出a,b,c。直接作為結(jié)果集的一部分直接返回。
2.從索引(a,b,c)中取出下一個,滿足a=1的記錄作為結(jié)果集的一部分。
3.重復(fù)執(zhí)行步驟2,直到查到第二個a=1或者不滿足a=1的記錄。
此時通過查看執(zhí)行sql的的還行計劃可以發(fā)現(xiàn) extra中只有 Using index。
explain select a,b from t1 where a = 1 order by b lmit 2;
總結(jié)
通過對該sql的多次優(yōu)化,sql的最終執(zhí)行效率和沒有排序的普通sql的查詢效率基本是一樣的。之所以可以避免orderby的排序操作,就是利用了索引天然有序的特點。
但是我們都知道,索引可以加快查詢的效率,但是索引的維護成本比較大,對數(shù)據(jù)表中數(shù)據(jù)的新增和修改都會涉及索引的變動,所以索引也不是越多越好,有時候,并不能因為一些不常用的查詢和排序,而增加了過多的索引,得不償失。
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
MySQL視圖的概念、創(chuàng)建、查看、刪除和修改詳解
視圖是指計算機數(shù)據(jù)庫中的視圖,是一個虛擬表,其內(nèi)容由查詢定義,下面這篇文章主要給大家介紹了關(guān)于MySQL視圖的概念、創(chuàng)建、查看、刪除和修改的相關(guān)資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下2022-08-08MySQL 的 21 個規(guī)范、優(yōu)化最佳實踐!
每一個好習(xí)慣都是一筆財富,本文分 SQL 后悔藥,SQL 性能優(yōu)化,SQL 規(guī)范優(yōu)雅三個方向,分享寫 SQL 的 21 個好習(xí)慣和最佳實踐2020-12-12mysql中的delete,drop和truncate有什么區(qū)別
這篇文章主要介紹了mysql中的delete,drop和truncate有什么區(qū)別,三者的用法和使用場景又完全不同,接下來我們來看看具體的區(qū)別吧,希望對你的學(xué)習(xí)有所幫助2022-06-06面試被問select......for update會鎖表還是鎖行
select … for update 是我們常用的對行加鎖的一種方式,那么select......for update會鎖表還是鎖行,本文就詳細的來介紹一下,感興趣的可以了解一下2021-11-11mysql安裝報錯unknown variable mysqlx_port=0.0
本文主要介紹了mysql安裝報錯unknown variable mysqlx_port=0.0,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2024-06-06mysql數(shù)據(jù)插入覆蓋和時間戳的問題及解決
這篇文章主要介紹了mysql數(shù)據(jù)插入覆蓋和時間戳的問題及解決,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2022-03-03