快捷導(dǎo)航

為什么代碼規(guī)范要求SQL語(yǔ)句不要過(guò)多的join

更新時(shí)間：2021年06月22日 15:23:05 作者：Apple_Web

SQL中的join可以根據(jù)某些條件把指定的表給結(jié)合起來(lái)并將數(shù)據(jù)返回給客戶端，那么在項(xiàng)目開(kāi)發(fā)中如果需要使用join語(yǔ)句，如何優(yōu)化提升性能?本文就來(lái)詳細(xì)的介紹一下

送分題

面試官：有操作過(guò)Linux嗎?

我：有的呀

面試官：我想查看內(nèi)存的使用情況該用什么命令

我：free 或者 top

面試官：那你說(shuō)一下用free命令都可以看到啥信息

我：那，如下圖所示可以看到內(nèi)存以及緩存的使用情況

total 總內(nèi)存
used 已用內(nèi)存
free 空閑內(nèi)存
buff/cache 已使用的緩存
avaiable 可用內(nèi)存

面試官：那你知道怎么清理已使用的緩存嗎(buff/cache)

我：em… 不知道

面試官：sync; echo 3 > /proc/sys/vm/drop_caches就可以清理buff/cache了，你說(shuō)說(shuō)我在線上執(zhí)行這條命令做好不好?

我：(送分題,內(nèi)心大喜)好處大大的有，清理出緩存我們就有更多可用的內(nèi)存空間, 就跟pc上面xx衛(wèi)士的小火箭一樣，點(diǎn)一下，就釋放出好多的內(nèi)存

面試官：em…, 回去等通知吧

再談SQL Join

面試官：換個(gè)話題，談?wù)勀銓?duì)join的理解

我：好的（再答錯(cuò)就徹底完了,把握住機(jī)會(huì))

回顧

SQL中的join可以根據(jù)某些條件把指定的表給結(jié)合起來(lái)并將數(shù)據(jù)返回給客戶端

join的方式有

inner join 內(nèi)連接

left join 左連接

right join 右連接

full join 全連接

面試官：在項(xiàng)目開(kāi)發(fā)中如果需要使用join語(yǔ)句，如何優(yōu)化提升性能?

我：分為兩種情況，數(shù)據(jù)規(guī)模小的，數(shù)據(jù)規(guī)模大的。

面試官: 然后?

我：對(duì)于

數(shù)據(jù)規(guī)模較小 全部干進(jìn)內(nèi)存就完事了嗷
數(shù)據(jù)規(guī)模較大

可以通過(guò)增加索引來(lái)優(yōu)化join語(yǔ)句的執(zhí)行速度可以通過(guò)冗余信息來(lái)減少join的次數(shù) 盡量減少表連接的次數(shù)，一個(gè)SQL語(yǔ)句表連接的次數(shù)不要超過(guò)5次

面試官：可以總結(jié)為join語(yǔ)句是相對(duì)比較耗費(fèi)性能，對(duì)嗎？

我：是的

面試官: 為什么?

緩沖區(qū)

我: 在執(zhí)行join語(yǔ)句的時(shí)候必然要有一個(gè)比較的過(guò)程

面試官: 是的

我：逐條比較兩個(gè)表的語(yǔ)句是比較慢的，因此我們可以把兩個(gè)表中數(shù)據(jù)依次讀進(jìn)一個(gè)內(nèi)存塊中, 以MySQL的InnoDB引擎為例，使用以下語(yǔ)句我們必然可以查到相關(guān)的內(nèi)存區(qū)域show variables like '%buffer%'

如下圖所示join_buffer_size的大小將會(huì)影響我們join語(yǔ)句的執(zhí)行性能

面試官: 除此之外呢?

一個(gè)大前提

我：任何項(xiàng)目終究要上線，不可避免的要產(chǎn)生數(shù)據(jù)，數(shù)據(jù)的規(guī)模又不可能太小

面試官: 是這樣的

我：大部分?jǐn)?shù)據(jù)庫(kù)中的數(shù)據(jù)最終要保存到硬盤(pán)上,并且以文件的形式進(jìn)行存儲(chǔ)。

以MySQL的InnoDB引擎為例

InnoDB以頁(yè)(page)為基本的IO單位，每個(gè)頁(yè)的大小為16KB
InnoDB會(huì)為每個(gè)表創(chuàng)建用于存儲(chǔ)數(shù)據(jù)的.ibd文件

驗(yàn)證

我：這意味著我們有多少表要連接就需要讀多少個(gè)文件，雖然可以利用索引，但還是免不了頻繁的移動(dòng)硬盤(pán)的磁頭

面試官：也就是說(shuō)頻繁的移動(dòng)磁頭會(huì)影響性能對(duì)吧

我：是的，現(xiàn)在的開(kāi)源框架不都喜歡說(shuō)自己通過(guò)順序讀寫(xiě)大大的提升了性能嗎，比如hbase、kafka

面試官：說(shuō)的沒(méi)錯(cuò)，那你認(rèn)為Linux有對(duì)此做出優(yōu)化嗎?提示，你可以再執(zhí)行一次free命令看一下

我：奇怪緩存怎么占用了1.2G多

面試官: 你有沒(méi)有想過(guò)

buff/cache 里面存的是什么,？
為什么buff/cache 占了那么多內(nèi)存，可用內(nèi)存即availlable還有1.1G？
為什么你可以通過(guò)兩條命令來(lái)清理buff/cache占用的內(nèi)存，而想要釋放used只能通過(guò)結(jié)束進(jìn)程來(lái)實(shí)現(xiàn)?

品，你細(xì)品

思考了幾分鐘后

我：這么隨便就釋放了buff/cache所占用的內(nèi)存，說(shuō)明它就不重要, 清除它不會(huì)對(duì)系統(tǒng)的運(yùn)行造成影響

面試官: 不完全對(duì)

我：難道是？想起來(lái)《CSAPP》（深入理解計(jì)算機(jī)系統(tǒng)）里面說(shuō)過(guò)一句話

存儲(chǔ)器層次結(jié)構(gòu)的本質(zhì)是，每一層存儲(chǔ)設(shè)備都是較低一層設(shè)備的緩存

翻譯成人話，就是說(shuō)Linux會(huì)把內(nèi)存當(dāng)作是硬盤(pán)的高速緩存

面試官：現(xiàn)在知道那道送分題應(yīng)該怎么回答了吧

我：我…

Join算法

面試官：再給你個(gè)機(jī)會(huì)，如果讓你來(lái)實(shí)現(xiàn)Join算法你會(huì)怎么做?

我：無(wú)索引的話,嵌套循環(huán)就完事了嗷。有索引的話，則可以利用索引來(lái)提升性能.

面試官：說(shuō)回join_buffer 你認(rèn)為join_buffer里面存儲(chǔ)的是什么?

我：在掃描過(guò)程中，數(shù)據(jù)庫(kù)會(huì)選擇一個(gè)表把他要返回以及需要進(jìn)行和其他表進(jìn)行比較的數(shù)據(jù)放進(jìn)join_buffer

面試官：有索引的情況下是怎么處理的？

我：這個(gè)就比較簡(jiǎn)單了，直接讀取兩個(gè)表的索引樹(shù)進(jìn)行比較就完事了嗷，我這邊介紹一下無(wú)索引的處理方式

Nested Loop Join

嵌套循環(huán)，每次只讀取表中的一行數(shù)據(jù)，也就是說(shuō)如果outerTable有10萬(wàn)行數(shù)據(jù), innerTable有100行數(shù)據(jù)，需要讀取10000000次(假設(shè)這兩個(gè)表的文件沒(méi)有被操作系統(tǒng)給緩存到內(nèi)存, 我們稱(chēng)之為冷數(shù)據(jù)表)

當(dāng)然現(xiàn)在沒(méi)啥數(shù)據(jù)庫(kù)引擎使用這種算法（太慢了)

Block nested loop

Block 塊，也就是說(shuō)每次都會(huì)取一塊數(shù)據(jù)到內(nèi)存以減少I(mǎi)/O的開(kāi)銷(xiāo)

當(dāng)沒(méi)有索引可以使用的時(shí)候，MySQL InnoDB 就會(huì)使用這種算法

考慮以下兩個(gè)表 t_a 和t_b

當(dāng)無(wú)法使用索引執(zhí)行join操作的時(shí)候，InnoDB會(huì)自動(dòng)使用Block nested loop 算法

總結(jié)

上學(xué)時(shí)，數(shù)據(jù)庫(kù)老師最喜歡考數(shù)據(jù)庫(kù)范式，直到上班才學(xué)會(huì)一切以性能為準(zhǔn)，能冗余就冗余，實(shí)在冗余不了的就join如果join真的影響到性能。試著調(diào)大你的join_buffer_size, 或者換固態(tài)硬盤(pán)。

到此這篇關(guān)于為什么代碼規(guī)范要求SQL語(yǔ)句不要過(guò)多的join的文章就介紹到這了,更多相關(guān)SQL語(yǔ)句不要過(guò)多join內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: