欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

MySQL數(shù)據(jù)庫(kù)索引order?by排序精講

 更新時(shí)間:2021年11月27日 10:48:34   作者:假裝懂編程  
我們今天說(shuō)的并不是大數(shù)據(jù)下該如何優(yōu)雅的排序,如何提升排序性能的問(wèn)題,我們來(lái)仔細(xì)分析說(shuō)一說(shuō)MySQL中的排序問(wèn)題,希望可以對(duì)正在閱讀的同學(xué)們有所啟迪幫助

排序這個(gè)詞,我的第一感覺(jué)是幾乎所有App都有排序的地方,淘寶商品有按照購(gòu)買(mǎi)時(shí)間的排序、B站的評(píng)論有按照熱度排序的...

對(duì)于MySQL,一說(shuō)到排序,你第一時(shí)間想到的是什么?關(guān)鍵字order by?order by的字段最好有索引?葉子結(jié)點(diǎn)已經(jīng)是順序的?還是說(shuō)盡量不要在MySQL內(nèi)部排序?

事情的起因

現(xiàn)在假設(shè)有一張用戶的朋友表:

CREATE TABLE `user` (
  `id` int(10) AUTO_INCREMENT,
  `user_id` int(10),
  `friend_addr` varchar(1000),
  `friend_name` varchar(100),  
  PRIMARY KEY (`id`),
  KEY `user_id` (`user_id`)
) ENGINE=InnoDB;

表中目前有兩個(gè)點(diǎn)需要關(guān)注下:

  • 用戶的 user_id ,朋友的姓名 friend_name、朋友的地址 friend_addr
  • user_id 是有索引的

有一天,有個(gè)初級(jí)開(kāi)發(fā)工程師小猿,收到了來(lái)自初級(jí)產(chǎn)品經(jīng)理小汪的需求:
小汪:小猿同志,現(xiàn)在需要在后臺(tái)加個(gè)功能,這個(gè)功能要支持根據(jù)用戶 id 能查到他所有的朋友姓名和地址,并且要求朋友的姓名是按照字典排序的。
小猿:好的,這個(gè)功能簡(jiǎn)單,我馬上就上線。

于是小猿書(shū)寫(xiě)了這樣的sql:

select friend_name,friend_addr from user where user_id=? order by name

在電光石火的瞬間,小猿趾高氣昂的上線了,這一切都很順利,直到有一天有個(gè)運(yùn)營(yíng)同學(xué)導(dǎo)致了這樣的查詢:

select friend_name,friend_addr from user where user_id=10086 order by name

然而,這個(gè)查詢竟然比平時(shí)慢很多,數(shù)據(jù)庫(kù)報(bào)了慢查詢,小猿此時(shí)慌的一b:這是怎么回事?user_id 明明有索引啊,而且機(jī)智地我還只用了 select friend_name,friend_addr,并沒(méi)有用 select *呀。小猿此時(shí)不停地安慰自己,要淡定要淡定,然后突然想到有個(gè)explain命令,用explain來(lái)查看下那條sql的執(zhí)行計(jì)劃吧,當(dāng)小猿用了explain之后,發(fā)現(xiàn)extra字段里面有個(gè)看起來(lái)很危險(xiǎn)的字眼:using filesort。

“這個(gè)查詢竟然用到了傳說(shuō)中的文件排序,但是如果一個(gè)人朋友不是很多,就算了用了文件排序,應(yīng)該也很快吧”,除非這個(gè)user_id=10086的朋友很多,后來(lái)小猿去查了下,這個(gè)用戶的朋友竟然有10w多個(gè)~。

陷入了沉思的小猿心想:這個(gè)鍋看來(lái)是背定了,10w數(shù)據(jù)是有點(diǎn)大了,還有這個(gè) using filesort 到底是怎么個(gè)排序原理?

解剖文件排序

有人可能說(shuō)上面的問(wèn)題是10w數(shù)據(jù)太大了,就算不排序也慢,這個(gè)其實(shí)是有道理的,10w數(shù)據(jù)一次性查出來(lái),無(wú)論是MySQL內(nèi)存緩沖區(qū)的占用,還是網(wǎng)絡(luò)帶寬的消耗都是非常大的,那如果我加了limit 1000呢?網(wǎng)絡(luò)帶寬的問(wèn)題肯定是解決了,因?yàn)閿?shù)據(jù)包整體變小了,但是 using filesort 的問(wèn)題其實(shí)還是沒(méi)有解決,看到這里你可能會(huì)有疑問(wèn),using filesort 難道是在文件中排序的?在文件中到底是怎么排序的?或者我這樣問(wèn):如果給你來(lái)設(shè)計(jì)排序你會(huì)怎么處理?帶著這些疑問(wèn)和思考我們來(lái)看看 using filesort 會(huì)涉及到哪些技術(shù)難點(diǎn)以及是如何解決的?

  1. 首先我們的 user_id 是有索引的,所以會(huì)先在 user_id 索引樹(shù)上檢索我們的目標(biāo)數(shù)據(jù),即 user_id=10086 的數(shù)據(jù),但是我們要查詢的是 friend_name 和 friend_addr 字段,很不幸,光靠 user_id 索引是找不到這兩個(gè)字段值的
  2. 于是需要回表,通過(guò) user_id 對(duì)應(yīng)的主鍵去主鍵索引樹(shù)上去查找,ok,我們找到了第一條 user_id=10086 的 friend_name 和 friend_addr 字段
  3. 這時(shí)該怎么辦?直接返回回去肯定不對(duì),因?yàn)槲倚枰獙?duì) friend_name 排序,如何排?數(shù)據(jù)都還沒(méi)找全,那么就得把查到的數(shù)據(jù)先放在一個(gè)地方,這個(gè)地方就是 sort_buffer,看到名字我想你應(yīng)該猜出來(lái),沒(méi)錯(cuò),sort_buffer 就是用于這種情況下排序用的緩沖區(qū),這里需要注意的是每個(gè)線程都會(huì)有一個(gè)單獨(dú)的 sort_buffer,這么做的目的主要是為了避免多個(gè)線程對(duì)同一塊內(nèi)存進(jìn)行操作帶來(lái)鎖競(jìng)爭(zhēng)的問(wèn)題。
  4. 當(dāng)?shù)谝粭l數(shù)據(jù)的 friend_name 和 friend_addr 已經(jīng)放入 sort_buffer 中,這當(dāng)然沒(méi)完,會(huì)一直重復(fù)同步的步驟,直至把所有 user_id=10086 的 friend_name 和 friend_addr 都放入到 sort_buffer 中才結(jié)束
  5. sort_buffer 中的數(shù)據(jù)已經(jīng)放入完畢,接下來(lái)就該排序了,這里 MySQL 會(huì)對(duì) friend_name 進(jìn)行快排,通過(guò)快排后,sort_buffer 中 friend_name 就是有序的了
  6. 最后返回 sort_buffer 中的前1000條,結(jié)束。

一切看起來(lái)很絲滑,但是 sort_buffer 占用的是內(nèi)存空間,這就尷尬了,內(nèi)存本身就不是無(wú)限大的,它肯定是有上限的,當(dāng)然 sort_buffer 也不能太小,太小的話,意義不大。在 InnoDB 存儲(chǔ)引擎中,這個(gè)值是默認(rèn)是256K。

mysql> show variables  like 'sort_buffer_size';
+------------------+--------+
| Variable_name    | Value  |
+------------------+--------+
| sort_buffer_size | 262144 |
+------------------+--------+

也就是說(shuō),如果要放進(jìn) sort_buffer 中的數(shù)據(jù)是大于256K的話,那么采用在 sort_buffer 中快排的方式肯定是行不通的,這時(shí)候,你可能會(huì)問(wèn):MySQL難道不能根據(jù)數(shù)據(jù)大小自動(dòng)擴(kuò)充嗎?額,MySQL是多線程模型,如果每個(gè)線程都擴(kuò)充,那么分給其他功能buffer就小了(比如change buffer等),就會(huì)影響其他功能的質(zhì)量。

這時(shí)就得換種方式來(lái)排序了,沒(méi)錯(cuò),此時(shí)就是真正的文件排序了,也就是磁盤(pán)的臨時(shí)文件,MySQL會(huì)采用歸并排序的思想,把要排序的數(shù)據(jù)分成若干份,每一份數(shù)據(jù)在內(nèi)存中排序后會(huì)放入臨時(shí)文件中,最終對(duì)這些已經(jīng)排序好的臨時(shí)文件的數(shù)據(jù)再做一次合并排序就ok了,典型的分而治之原理,它的具體步驟如下:

  1. 先將要排序的數(shù)據(jù)分割,分割成每塊數(shù)據(jù)都可以放到 sort_buffer 中
  2. 對(duì)每塊數(shù)據(jù)在 sort_buffer 中進(jìn)行排序,排序好后,寫(xiě)入某個(gè)臨時(shí)文件中
  3. 當(dāng)所有的數(shù)據(jù)都寫(xiě)入臨時(shí)文件后,這時(shí)對(duì)于每個(gè)臨時(shí)文件而言,內(nèi)部都是有序的,但是它們并不是一個(gè)整體,整體還不是有序的,所以接下來(lái)就得合并數(shù)據(jù)了
  4. 假設(shè)現(xiàn)在存在 tmpX 和 tmpY 兩個(gè)臨時(shí)文件,這時(shí)會(huì)從 tmpX 讀取一部分?jǐn)?shù)據(jù)進(jìn)入內(nèi)存,然后從 tmpY 中讀取一部分?jǐn)?shù)據(jù)進(jìn)入內(nèi)存,這里你可能會(huì)好奇為什么是一部分而不是整個(gè)或者單個(gè)?因?yàn)槭紫却疟P(pán)是緩慢的,所以盡量每次多讀點(diǎn)數(shù)據(jù)進(jìn)入內(nèi)存,但是不能讀太多,因?yàn)檫€有 buffer 空間的限制。
  5. 對(duì)于 tmpX 假設(shè)讀進(jìn)來(lái)了的是 tmpX[0-5] ,對(duì)于 tmpY 假設(shè)讀進(jìn)來(lái)了的是 tmpY[0-5],于是只需要這樣比較: 如果 tmpX[0] < tmpY[0],那么 tmpX[0] 肯定是最小的,然后 tmpX[1] 和 tmpY[0] 比較,如果 tmpX[1] > tmpY[0],那么 tmpY[0] 肯定是第二小的...,就這樣兩兩比較最終就可以把 tmpX 和 tmpY 合并成一個(gè)有序的文件tmpZ,多個(gè)這樣的tmpZ再次合并...,最終就可以把所有的數(shù)據(jù)合并成一個(gè)有序的大文件。

文件排序很慢,還有其他辦法嗎

通過(guò)上面的排序流程我們知道,如果要排序的數(shù)據(jù)很大,超過(guò) sort_buffer 的大小,那么就需要文件排序,文件排序涉及到分批排序與合并,很耗時(shí),造成這個(gè)問(wèn)題的根本原因是 sort_buffer 不夠用,不知道你發(fā)現(xiàn)沒(méi)有我們的 friend_name 需要排序,但是卻把 friend_addr 也塞進(jìn)了 sort_buffer 中,這樣單行數(shù)據(jù)的大小就等于 friend_name 的長(zhǎng)度 + friend_addr 的長(zhǎng)度,能否讓 sort_buffer 中只存 friend_name 字段,這樣的話,整體的利用空間就大了,不一定用得到到臨時(shí)文件。沒(méi)錯(cuò),這就是接下來(lái)要說(shuō)的另一種排序優(yōu)化rowid排序。

rowid 排序的思想就是把不需要的數(shù)據(jù)不要放到 sort_buffer 中,讓 sort_buffer 中只保留必要的數(shù)據(jù),那么你認(rèn)為什么是必要的數(shù)據(jù)呢?只放 friend_name?這肯定不行,排序完了之后,friend_addr 怎么辦?因此還要把主鍵id放進(jìn)去,這樣排完之后,通過(guò) id 再回次表,拿到 friend_addr 即可,因此它的大致流程如下:

  1. 根據(jù) user_id 索引,查到目標(biāo)數(shù)據(jù),然后回表,只把 id 和 friend_name 放進(jìn) sort_buffer 中
  2. 重復(fù)1步驟,直至全部的目標(biāo)數(shù)據(jù)都在 sort_buffer 中
  3. 對(duì) sort_buffer 中的數(shù)據(jù)按照 friend_name 字段進(jìn)行排序
  4. 排序后根據(jù) id 再次回表查到 friend_addr 返回,直至返回1000條數(shù)據(jù),結(jié)束。

這里面其實(shí)有幾點(diǎn)需要注意的:

  • 這種方式需要兩次回表的
  • sort_buffer 雖然小了,但是如果數(shù)據(jù)量本身還是很大,應(yīng)該還是要臨時(shí)文件排序的

那么問(wèn)題來(lái)了,兩種方式,MySQL 該如何選擇?得根據(jù)某個(gè)條件來(lái)判斷走哪種方式吧,這個(gè)條件就是進(jìn) sort_buffer 單行的長(zhǎng)度,如果長(zhǎng)度太大(friend_name + friend_addr的長(zhǎng)度),就會(huì)采用 rowid 這種方式,否則第一種,長(zhǎng)度的標(biāo)準(zhǔn)是根據(jù) max_length_for_sort_data 來(lái)的,這個(gè)值默認(rèn)是1024字節(jié):

mysql> show variables like 'max_length_for_sort_data';
+--------------------------+-------+
| Variable_name          | Value |
+--------------------------+-------+
| max_length_for_sort_data | 1024  |
+--------------------------+-------+

不想回表,不想再次排序

其實(shí)不管是上面哪種方法,他們都需要回表+排序,回表是因?yàn)槎?jí)索引上沒(méi)有目標(biāo)字段,排序是因?yàn)閿?shù)據(jù)不是有序的,那如果二級(jí)索引上有目標(biāo)字段并且已經(jīng)是排序好的了,那不就兩全其美了嘛。

沒(méi)錯(cuò),就是聯(lián)合索引,我們只需要建立一個(gè) (user_id,friend_name,friend_addr)的聯(lián)合索引即可,這樣我就可以通過(guò)這個(gè)索引拿到目標(biāo)數(shù)據(jù),并且friend_name已經(jīng)是排序好的,同時(shí)還有friend_addr字段,一招搞定,不需要回表,不需要再次排序。因此對(duì)于上述的sql,它的大致流程如下:

  • 通過(guò)聯(lián)合索引找到user_id=10086的數(shù)據(jù),然后讀取對(duì)應(yīng)的 friend_name 和 friend_addr 字段直接返回,因?yàn)?friend_name 已經(jīng)是排序好的了,不需要額外處理
  • 重復(fù)第一步驟,順著葉子節(jié)點(diǎn)接著向后找,直至找到第一個(gè)不是10086的數(shù)據(jù),結(jié)束。

聯(lián)合索引雖然可以解決這種問(wèn)題,但是在實(shí)際應(yīng)用中切不可盲目建立,要根據(jù)實(shí)際的業(yè)務(wù)邏輯來(lái)判斷是否需要建立,如果不是經(jīng)常有類似的查詢,可以不用建立,因?yàn)槁?lián)合索引會(huì)占用更多的存儲(chǔ)空間和維護(hù)開(kāi)銷。

總結(jié)

  1. 對(duì)于 order by 沒(méi)有用到索引的時(shí)候,這時(shí) explain 中 Extra 字段大概是會(huì)出現(xiàn) using filesort 字眼
  2. 出現(xiàn) using filesort 的時(shí)候也不用太慌張,如果本身數(shù)據(jù)量不大,比如也就幾十條數(shù)據(jù),那么在 sort buffer 中使用快排也是很快的
  3. 如果數(shù)據(jù)量很大,超過(guò)了 sort buffer 的大小,那么是要進(jìn)行臨時(shí)文件排序的,也就是歸并排序,這部分是由 MySQL 優(yōu)化器決定的
  4. 如果查詢的字段很多,想要盡量避免使用臨時(shí)文件排序,可以嘗試設(shè)置下 max_length_for_sort_data 字段的大小,讓其小于所有查詢字段長(zhǎng)度的總和,這樣放入或許可以避免,但是會(huì)多一次回表操作
  5. 實(shí)際業(yè)務(wù)中,我們也可以給經(jīng)常要查詢的字段組合建立個(gè)聯(lián)合索引,這樣既不用回表也不需要單獨(dú)排序,但是聯(lián)合索引會(huì)占用更多的存儲(chǔ)和開(kāi)銷
  6. 大量數(shù)據(jù)查詢的時(shí)候,盡量分批次,提前 explain 來(lái)觀察 sql 的執(zhí)行計(jì)劃是個(gè)不錯(cuò)的選擇。

以上就是MySQL數(shù)據(jù)庫(kù)order by排序精講的詳細(xì)內(nèi)容,更多關(guān)于MySQL數(shù)據(jù)庫(kù)order by排序的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • MySQL 重寫(xiě)查詢語(yǔ)句的三種策略

    MySQL 重寫(xiě)查詢語(yǔ)句的三種策略

    這篇文章主要介紹了MySQL 重寫(xiě)查詢語(yǔ)句的三種策略,幫助大家更好的理解和學(xué)習(xí)使用MySQL,感興趣的朋友可以了解下
    2021-05-05
  • MySQL建表和增添改查操作代碼

    MySQL建表和增添改查操作代碼

    這篇文章主要介紹了MySQL建表和增添改查操作代碼,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧
    2024-03-03
  • MySQL group_concat函數(shù)使用方法詳解

    MySQL group_concat函數(shù)使用方法詳解

    GROUP_CONCAT函數(shù)用于將GROUP BY產(chǎn)生的同一個(gè)分組中的值連接起來(lái),返回一個(gè)字符串結(jié)果,接下來(lái)就給大家簡(jiǎn)單的介紹一下MySQL group_concat函數(shù)的使用方法,需要的朋友可以參考下
    2023-07-07
  • Mysql提升大數(shù)據(jù)表拷貝效率的解決方案

    Mysql提升大數(shù)據(jù)表拷貝效率的解決方案

    這篇文章主要給大家介紹了關(guān)于Mysql提升大數(shù)據(jù)表拷貝效率的解決方案,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2018-09-09
  • 一鍵清空(重置)本地MySQL8.0密碼腳本

    一鍵清空(重置)本地MySQL8.0密碼腳本

    這篇文章主要介紹了一鍵清空本地MySQL8.0密碼腳本,再也不用擔(dān)心MySQL密碼忘記了,很容易的解決了忘記mysql密碼的煩惱,操作方法也非常簡(jiǎn)單,需要的朋友可以參考下
    2023-01-01
  • MySQL實(shí)現(xiàn)JDBC詳細(xì)步驟

    MySQL實(shí)現(xiàn)JDBC詳細(xì)步驟

    JDBC?是?Java?訪問(wèn)數(shù)據(jù)庫(kù)的標(biāo)準(zhǔn)規(guī)范,真正怎么操作數(shù)據(jù)庫(kù)還需要具體的實(shí)現(xiàn)類,也就是數(shù)據(jù)庫(kù)驅(qū)動(dòng),本文給大家介紹MySQL實(shí)現(xiàn)JDBC詳細(xì)講解,感興趣的朋友一起看看吧
    2022-02-02
  • MySQL數(shù)據(jù)庫(kù)事務(wù)與鎖深入分析

    MySQL數(shù)據(jù)庫(kù)事務(wù)與鎖深入分析

    這篇文章主要介紹了MySQL數(shù)據(jù)庫(kù)事務(wù)與鎖深入分析,內(nèi)容介紹的非常詳細(xì),有對(duì)這方面不懂的同學(xué)可以跟著小編一起研究下吧
    2020-12-12
  • Mysql實(shí)現(xiàn)簡(jiǎn)易版搜索引擎的示例代碼

    Mysql實(shí)現(xiàn)簡(jiǎn)易版搜索引擎的示例代碼

    前段時(shí)間,因?yàn)轫?xiàng)目需求,需要根據(jù)關(guān)鍵詞搜索聊天記錄,所以本文實(shí)現(xiàn)了Mysql實(shí)現(xiàn)簡(jiǎn)易版搜索引擎,具有一定的參考價(jià)值,感興趣的可以了解一下
    2021-08-08
  • MySQL約束(創(chuàng)建表時(shí)的各種條件說(shuō)明)

    MySQL約束(創(chuàng)建表時(shí)的各種條件說(shuō)明)

    這篇文章主要介紹了MySQL約束(創(chuàng)建表時(shí)的各種條件說(shuō)明),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-06-06
  • MySQL 中 LIMIT 使用示例詳解

    MySQL 中 LIMIT 使用示例詳解

    limit關(guān)鍵字主要用于指定查詢結(jié)果從哪條記錄開(kāi)始顯示,一共顯示多少條記錄,這篇文章主要介紹了MySQL 中 LIMIT 使用詳解,需要的朋友可以參考下
    2024-08-08

最新評(píng)論