一文帶你了解MySQL基于規(guī)則的優(yōu)化
一、條件簡化
我們編寫的查詢語句的搜索條件本質(zhì)上是一個表達式,這些表達式可能比較繁雜,或者不能高效的執(zhí)行,MySQL的查詢優(yōu)化器會為我們簡化這些表達式。為了方便大家理解,我們后邊舉例的時候都使用諸如a
、b
、c
之類的簡單字母代表某個表的列名。
1.1 移除不必要的括號
有時候表達式里有很多無用的括號,比如這樣:
((a = 5 AND b =c ) OR ((a > c) AND (c < 5)))
是不是看著就很煩,優(yōu)化器會把哪些用不到的括號都給消除,就是這樣:
(a = 5 AND b=c) OR (a > c AND c < 5)
1.2 常量傳遞(constant_propagation)
有時候像某個表達式是某個列和某個常量做等值匹配,比如這樣:
a = 5
當這個表達式和其他涉及列a
的表達式使用AND
連接起來時,可以將其他表達式中的a的值替換為5
,比如這樣:
a = 5 AND b > a
就可以被轉(zhuǎn)換為:
a = 5 AND b > 5
小提示:
為啥用OR連接起來的表達式就不能進行常量傳遞?自己想想哈~
1.3 等值傳遞(equality_propagation)
有時候多個列之間存在等值匹配的關(guān)系,比如這樣:
a = b AND b = c AND c = 5
這個表達式可以被簡化為:
a = 5 AND b = 5 AND c = 5
1.4 移除沒用的條件(trivial_condition_removal)
對于一些明顯永遠為TRUE
或者FALSE
的表達式,優(yōu)化器會移除掉它們,比如這個表達式:
(a < 1 AND b = b) OR (a = 6 OR 5 != 5)
很明顯,b = b
這個表達式永遠是TRUE
,5 != 5
這個表達式永遠是FALSE
,所有簡化后的表達式就是這樣的:
(a < 1 AND TRUE) OR (a = 6 OR 5 FALSE)
可以繼續(xù)簡化:
a < 1 OR a = 6
1.5 表達式計算
在查詢開始之前,如果表達式中只包含常量的話,它的值會被先計算出來,比如這個:
a = 5 + 1
因為 5 + 1
這個表達式只包含常量,所以就會簡化成:
a = 6
但是這里需要注意的是,如果某個列并不是以單獨的形式作為表達式的操作數(shù)時,比如出現(xiàn)在函數(shù)中,出現(xiàn)在某個更復雜表達式中,就像這樣:
ABS(a) > 5
或者:
-a = -8
優(yōu)化器是不會嘗試對這些表達式進行簡化的
。我們前邊說過只有搜索條件中索引列和常數(shù)使用的某些運算符連接起來才能使用到索引,索引如果可以的話,最好讓索引列以單獨的形式出現(xiàn)在表達式中
。
1.6 HAVING子句和WHERE子句的合并
如果查詢中沒有出現(xiàn)諸如SUM
、MAX
等的的聚集函數(shù)以及GROUP BY
子句,優(yōu)化器就把HAVING
子句和WHERE
子句合并起來。
1.7 常量表檢測
MySQL覺得以下這兩中查詢運行的特別快
- 查詢表中一條記錄沒有或者只用一條記錄
小提示:
大家有沒有覺得這一條有點不對勁,我還沒有開始查表怎么就知道表中有幾條記錄?哈哈~這個其實依靠的是統(tǒng)計數(shù)據(jù)。不過我們說過InnoDB的統(tǒng)計數(shù)據(jù)不準確,所以這一條不能用于使用于InnoDB作為存儲引擎的表,只適用于使用Memory或者MyISAM存儲引擎的表。
- 使用主鍵等值匹配或者唯一二級索引列等值匹配作為搜索條件來查詢某個表
MySQL覺著這兩種查詢花費的時間特別少,少到可以忽略,所以把通過這兩種方式查詢的表稱為常量表
(英文名:constant tables
)。優(yōu)化器在分析查詢一個語句時,先首先執(zhí)行常量表的查詢,然后把查詢中涉及到該表的條件全部替換成常數(shù),最后在分析其余表的查詢成本,比方說找個查詢語句:
SELECT * FROM table1 INNER JOIN table2 ON table1.column1 = table2.column2 WHERE table1.primary_key = 1;
很明顯,這個查詢可以使用主鍵和常量值的等值匹配來查詢table1
表,也就是在這個查詢中table1
相當于常量表,在分析對table2
表的查詢成本之前就會執(zhí)行對table1
表的查詢,并把查詢中涉及table1
表的條件都替換掉,也就是說上邊的語句被轉(zhuǎn)換成這樣:
SELECT table1表記錄的各個字段的常量值,table2.* FROM table1 INNER JOIN table2 ON table1.column1列的常量值 = table2.column2 ;
二、外連接消除
我們前面說過,內(nèi)連接的驅(qū)動表和被驅(qū)動表的位置是可以相互轉(zhuǎn)換,而左外連接
和右外連接
的驅(qū)動表和被驅(qū)動表是固定的。這導致內(nèi)連接
可能通過優(yōu)化表的連接順序來降低整體的查詢成本,而外連接
卻無法優(yōu)化表的連接順序。為了我們學習的順利進展,我們把之前介紹連接原理時用過的demo9
和demo10
表請出來,為了防止大家早就忘掉,我們在看一下這兩個表的結(jié)構(gòu):
mysql> create table demo9 (m1 int, n1 char(1)); Query OK, 0 rows affected (0.01 sec) mysql> create table demo10 (m2 int, n2 char(1)); Query OK, 0 rows affected (0.03 sec)
mysql> select * from demo9; +------+------+ | m1 | n1 | +------+------+ | 1 | a | | 2 | b | | 3 | c | +------+------+ 3 rows in set (0.00 sec) mysql> select * from demo10; +------+------+ | m2 | n2 | +------+------+ | 2 | b | | 3 | c | | 4 | d | +------+------+ 3 rows in set (0.00 sec)
我們之前說過,外連接和內(nèi)連接的本質(zhì)就是:對于外連接驅(qū)動表的記錄來說,如果無法在被驅(qū)動表中找到匹配ON子句中的過濾條件的記錄,那么該記錄仍然會被加入到結(jié)果集中,對應的被驅(qū)動表各個字段使用NULL值填充;而內(nèi)連接的驅(qū)動表的記錄如果無法在被驅(qū)動表中找到匹配ON子句中的過濾條件的記錄,那么該記錄會被舍棄
。查詢效果就是這樣:
mysql> SELECT * FROM demo9 INNER JOIN demo10 ON demo9.m1 = demo10.m2; +------+------+------+------+ | m1 | n1 | m2 | n2 | +------+------+------+------+ | 2 | b | 2 | b | | 3 | c | 3 | c | +------+------+------+------+ 2 rows in set (0.00 sec) mysql> SELECT * FROM demo9 LEFT JOIN demo10 ON demo9.m1 = demo10.m2; +------+------+------+------+ | m1 | n1 | m2 | n2 | +------+------+------+------+ | 1 | a | NULL | NULL | | 2 | b | 2 | b | | 3 | c | 3 | c | +------+------+------+------+ 3 rows in set (0.00 sec)
對于上邊例子中的左外連接來說,由于驅(qū)動表demo9
中m1=1
, n1='a'
的記錄無法在被驅(qū)動表demo10中找到符合ON子句條件demo9.m1 = demo10.m2的記錄,所以就直接把這條記錄加入到結(jié)果集,對應的demo10
表的m2
和n2
列的值都設置為NULL
。
小提示:
左外連接和右外連接其實只在驅(qū)動表的選取方式上是不同的,其余方面都是一樣的,所以優(yōu)化器會首先把右外連接查詢轉(zhuǎn)換成左外連接查詢。我們后邊就不再嘮叨右外連接了。
我們知道WHERE
子句的殺傷力比較大,凡是不符合WHERE子句中條件的記錄都不會參與連接
。只要我們在搜索條件中指定關(guān)于被驅(qū)動表相關(guān)列的值不為NULL,那么外連接中在被驅(qū)動表中找不到符合ON子句條件的驅(qū)動表記錄也就被排除出最后的結(jié)果集了,也就是說:在這種情況下:外連接和內(nèi)連接也就沒有什么區(qū)別了
!比如說這個查詢:
mysql> SELECT * FROM demo9 LEFT JOIN demo10 on demo9.m1 = demo10.m2 WHERE demo10.n2 IS NOT NULL; +------+------+------+------+ | m1 | n1 | m2 | n2 | +------+------+------+------+ | 2 | b | 2 | b | | 3 | c | 3 | c | +------+------+------+------+ 2 rows in set (0.00 sec)
由于指定了被驅(qū)動表demo10
的n2
列不允許為NULL
,所以上邊的demo9
和demo10
表的左外連接查詢和內(nèi)連接查詢是一樣的。當然,我們也可以不用顯式的指定被驅(qū)動表的某個列IS NOT NULL
,只要隱含的有這個意思就行了,比如說這樣:
mysql> SELECT * FROM demo9 LEFT JOIN demo10 on demo9.m1 = demo10.m2 WHERE demo10.m2 = 2; +------+------+------+------+ | m1 | n1 | m2 | n2 | +------+------+------+------+ | 2 | b | 2 | b | +------+------+------+------+ 1 row in set (0.01 sec)
在這個例子中,我們在WHERE
子句中指定了被驅(qū)動表demo10
的m2
列等于2
,也就相當于間接的指定了m2
列不為NULL
值,所以上邊的這個左外連接查詢其實和下邊這個內(nèi)連接查詢是等價的:
mysql> SELECT * FROM demo9 INNER JOIN demo10 on demo9.m1 = demo10.m2 WHERE demo10.m2 = 2; +------+------+------+------+ | m1 | n1 | m2 | n2 | +------+------+------+------+ | 2 | b | 2 | b | +------+------+------+------+ 1 row in set (0.01 sec)
我們把這種在外連接查詢中,指定的WHERE
子句中包含被驅(qū)動表中的列不為NULL
值的條件稱之為空值拒絕
(英文名:reject-NULL
)。在被驅(qū)動表的WHERE子句符合空值拒絕的條件后,外連接和內(nèi)連接可以相互轉(zhuǎn)換
。這種轉(zhuǎn)換帶來的好處就是查詢優(yōu)化器可以通過評估表的不同連接順序的成本,選出成本最低的那種連接順序來執(zhí)行查詢
。
三、子查詢優(yōu)化
我們的主題本來是嘮叨MySQL查詢優(yōu)化器是如何處理子查詢的,但是我還是擔心好多同學連接查詢的語法都沒掌握全,所以我們就先學習什么是個子查詢(當然不會面面俱到啦,只是說個大概哈~),然后再學習關(guān)于子查詢優(yōu)化的事。
3.1 子查詢語法
想必大家都是媽媽生下來的吧,連孫猴子都有媽媽——石頭人
。懷孕媽媽肚子里的那個東東就是她的孩子,類似的,在一個查詢語句里的某個位置也可以有另一個查詢語句,這個出現(xiàn)在某個查詢語句的某個位置中的查詢就被稱為子查詢
(我們也可以稱它為寶寶查詢哈~),那個充當“媽媽”角色的查詢也被稱之為外層查詢
。不像我們懷孕時寶寶們都只在肚子里,子查詢可以在一個外層查詢的各種位置出現(xiàn),比如:
1. SELECT 子句中
也就是我們平時說的查詢列表,比如這樣:
mysql> SELECT (SELECT m1 FROM demo9 LIMIT 1); +--------------------------------+ | (SELECT m1 FROM demo9 LIMIT 1) | +--------------------------------+ | 1 | +--------------------------------+ 1 row in set (0.01 sec)
其中的(SELECT m1 FROM demo9 LIMIT 1)
就是我們嘮叨的子查詢。
2. FROM 子句中
比如:
mysql> SELECT m,n FROM (SELECT m2+1 AS m, n2 AS n FROM demo10 WHERE m2 > 1) AS t; +------+------+ | m | n | +------+------+ | 3 | b | | 4 | c | | 5 | d | +------+------+ 3 rows in set (0.00 sec)
這個例子中的子查詢是:(SELECT m2 + 1 AS m, n2 AS n FROM demo10 WHERE m2 > 1)
,很特別的地方是它出現(xiàn)在了FROM
子句中。FROM
子句這邊不是存放我們要查詢的表的名稱么,這里放進來一個子查詢是個什么鬼?其實這里我們可以把子查詢的查詢結(jié)果當作是一個表,子查詢后邊的AS t
表明這個子查詢的結(jié)果就相當于一個名稱為t的表,這個名叫t的表的列就是子查詢結(jié)果中的列,比如例子中表 t
就有兩個列:m
列和 n
列。這個放在FROM
子句中的子查詢本質(zhì)上相當于一個表,但是和我們平常使用的表有點不一樣,MySQL把這種由子查詢結(jié)果集組成的表稱之為派生表
。
3. WHERE或ON 子句中
把子查詢放在外層查詢的WHERE
子句或者ON
子句中可能是我們最常用的一種使用子查詢的方式了,比如這樣:
mysql> SELECT * FROM demo9 WHERE m1 IN (SELECT m2 FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 2 | b | | 3 | c | +------+------+ 2 rows in set (0.00 sec)
這個查詢表明我們想要將(SELECT m2 FROM demo10)
這個子查詢的結(jié)果作為外層查詢的IN語句參數(shù),整個查詢語句的意思就是我們想找demo9
表中的某些記錄,這些記錄的m1
列的值能在demo10
表的m2
列找到匹配的值。
4. ORDER BY和GROUP BY 子句中
雖然語法支持,但沒啥子意義,不嘮叨這種情況了
3.1.1 按返回的結(jié)果集區(qū)分子查詢
因為子查詢本身也算是一個查詢,所以可以按照它們返回的不同結(jié)果集類型而把這些子查詢分為不同的類型:
1. 標量子查詢
那些只返回一個單一值的子查詢稱之為標量子查詢
,比如這樣:
mysql> SELECT (SELECT m1 FROM demo9 LIMIT 1); +--------------------------------+ | (SELECT m1 FROM demo9 LIMIT 1) | +--------------------------------+ | 1 | +--------------------------------+ 1 row in set (0.00 sec)
或者這樣:
mysql> SELECT * FROM demo9 WHERE m1 = (SELECT MIN(m2) FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 2 | b | +------+------+ 1 row in set (0.00 sec)
這兩個查詢語句中的子查詢都返回一個單一的值,也就是一個標量。這些標量子查詢可以作為一個單一值或者表達式的一部分出現(xiàn)在查詢語句的各個地方。
2. 行子查詢
顧名思義,就是返回一條記錄的子查詢
,不過這條記錄需要包含多個列(只包含一個列就成了標量子查詢了)。比如這樣:
mysql> SELECT * FROM demo9 WHERE (m1, n1) = (SELECT m2, n2 FROM demo10 LIMIT 1); +------+------+ | m1 | n1 | +------+------+ | 2 | b | +------+------+ 1 row in set (0.00 sec)
其中的(SELECT m2, n2 FROM demo10 LIMIT 1)
就是一個行子查詢,整條語句的含義就是要從demo9
表中找一些記錄,這些記錄的m1
和n1
列分別等于子查詢結(jié)果中的m2
和n2
列。
3. 列子查詢
列子查詢自然就是查詢出一個列的數(shù)據(jù)
嘍,不過這個列的數(shù)據(jù)需要包含多條記錄(只包含一條記錄就成了標量子查詢了)。比如這樣:
mysql> SELECT * FROM demo9 WHERE m1 IN (SELECT m2 FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 2 | b | | 3 | c | +------+------+ 2 rows in set (0.00 sec)
其中的(SELECT m2 FROM demo10)
就是一個列子查詢,表明查詢出demo10
表的m2
列的值作為外層查詢IN
語句的參數(shù)。
4. 表子查詢
顧名思義,就是子查詢的結(jié)果既包含很多條記錄,又包含很多個列
,比如這樣:
mysql> SELECT * FROM demo9 WHERE (m1, n1) IN (SELECT m2, n2 FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 2 | b | | 3 | c | +------+------+ 2 rows in set (0.00 sec)
其中的(SELECT m2, n2 FROM demo10)
就是一個表子查詢,這里需要和行子查詢對比一下,行子查詢中我們用了LIMIT 1
來保證子查詢的結(jié)果只有一條記錄,表子查詢中不需要這個限制。
3.1.2 按與外層查詢關(guān)系來區(qū)分子查詢
1. 不相關(guān)子查詢
如果子查詢可以單獨運行出結(jié)果,而不依賴于外層查詢的值
,我們就可以把這個子查詢稱之為不相關(guān)子查詢
。我們前邊介紹的那些子查詢?nèi)慷伎梢钥醋鞑幌嚓P(guān)子查詢,所以也就不舉例子了哈~
2. 相關(guān)子查詢
如果子查詢的執(zhí)行需要依賴于外層查詢的值
,我們就可以把這個子查詢稱之為相關(guān)子查詢
。比如:
mysql> SELECT * FROM demo9 WHERE m1 IN (SELECT m2 FROM demo10 WHERE n1 = n2); +------+------+ | m1 | n1 | +------+------+ | 2 | b | | 3 | c | +------+------+ 2 rows in set (0.00 sec)
例子中的子查詢是(SELECT m2 FROM demo10 WHERE n1 = n2)
,可是這個查詢中有一個搜索條件是n1 = n2
,別忘了n1
是表demo9
的列,也就是外層查詢的列,也就是說子查詢的執(zhí)行需要依賴于外層查詢的值
,所以這個子查詢就是一個相關(guān)子查詢
。
3.1.3 子查詢在布爾表達式中的使用
你說寫下邊這樣的子查詢有啥意義:
SELECT (SELECT m1 FROM demo9 LIMIT 1);
貌似沒啥意義~ 我們平時用子查詢最多的地方就是把它作為布爾表達式
的一部分來作為搜索條件用在WHERE
子句或者ON
子句里。所以我們這里來總結(jié)一下子查詢在布爾表達式中的使用場景
1. 使用=、>、<、>=、<=、<>、!=、<=>
作為布爾表達式的操作符
這些操作符具體是啥意思就不用我多介紹了吧,如果你不知道的話,那我真的很佩服你是靠著啥勇氣一口看到這里的~ 為了方便,我們就把這些操作符稱為comparison_operator
吧,所以子查詢組成的布爾表達式就長這樣:
操作數(shù) comparison_operator (子查詢)
這里的操作數(shù)
可以是某個列名,或者是一個常量,或者是一個更復雜的表達式,甚至可以是另一個子查詢。但是需要注意的是,這里的子查詢只能是標量子查詢或者行子查詢,也就是子查詢的結(jié)果只能返回一個單一的值或者只能是一條記錄
。
比如這樣(標量子查詢):
mysql> SELECT * FROM demo9 WHERE m1 < (SELECT MIN(m2) FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 1 | a | +------+------+ 1 row in set (0.00 sec)
或者這樣(行子查詢):
mysql> SELECT * FROM demo9 WHERE (m1, n1) = (SELECT m2, n2 FROM demo10 LIMIT 1); +------+------+ | m1 | n1 | +------+------+ | 2 | b | +------+------+ 1 row in set (0.00 sec)
2. [NOT] IN/ANY/SOME/ALL子查詢
對于列子查詢和表子查詢來說,它們的結(jié)果集中包含很多條記錄,這些記錄相當于是一個集合,所以就不能單純的和另外一個操作數(shù)使用comparison_operator
來組成布爾表達式了,MySQL通過下列的語法來支持某個操作數(shù)和一個集合組成一個布爾表達式:
a. IN或者NOT IN
具體的語法形式如下:操作數(shù) [NOT] IN (子查詢)
這個布爾表達式的意思是用來判斷某個操作數(shù)在不在由子查詢結(jié)果集組成的集合中,比如下邊的查詢的意思是找出demo9表中的某些記錄,這些記錄存在于子查詢的結(jié)果集中:
mysql> SELECT * FROM demo9 WHERE (m1, n1) IN (SELECT m2, n2 FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 2 | b | | 3 | c | +------+------+ 2 rows in set (0.00 sec)
b. ANY/SOME(ANY和SOME是同義詞) 具體的語法形式如下:操作數(shù) comparison_operator ANY/SOME(子查詢)
這個布爾表達式的意思是只要子查詢結(jié)果集中存在某個值和給定的操作數(shù)做comparison_operator
比較結(jié)果為TRUE
,那么整個表達式的結(jié)果就為TRUE
,否則整個表達式的結(jié)果就為FALSE
。比如說下邊這個查詢:
mysql> SELECT * FROM demo9 WHERE m1 > ANY(SELECT m2 FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 3 | c | +------+------+ 1 row in set (0.00 sec)
這個查詢的意思就是對于demo9
表的某條記錄的m1
列的值來說,如果子查詢(SELECT m2 FROM demo10)
的結(jié)果集中存在一個小于m1
列的值,那么整個布爾表達式的值就是TRUE
,否則為FALSE
,也就是說只要m1
列的值大于子查詢結(jié)果集中最小的值,整個表達式的結(jié)果就是TRUE
,所以上邊的查詢本質(zhì)上等價于這個查詢:
mysql> SELECT * FROM demo9 WHERE m1 > (SELECT MIN(m2) FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 3 | c | +------+------+ 1 row in set (0.01 sec)
另外,=ANY相當于判斷子查詢結(jié)果集中是否存在某個值和給定的操作數(shù)相等,它的含義和IN是相同的
c. ALL
具體的語法形式如下:操作數(shù) comparison_operator ALL(子查詢)
這個布爾表達式的意思是子查詢結(jié)果集中所有的值和給定的操作數(shù)做comparison_operator
比較結(jié)果為TRUE
,那么整個表達式的結(jié)果就為TRUE
,否則整個表達式的結(jié)果就為FALSE
。比如說下邊這個查詢:
mysql> SELECT * FROM demo9 WHERE m1 > ALL(SELECT m2 FROM demo10); Empty set (0.00 sec)
這個查詢的意思就是對于demo9
表的某條記錄的m1
列的值來說,如果子查詢(SELECT m2 FROM demo10)
的結(jié)果集中的所有值都大于m1
列的值,那么整個布爾表達式的值就是TRUE
,否則為FALSE
,也就是說只要m1列的值大于子查詢結(jié)果集中最小的值,整個表達式的結(jié)果就是TRUE
,所以上邊的查詢本質(zhì)上等價于這個查詢:
mysql> SELECT * FROM demo9 WHERE m1 > (SELECT MAX(m2) FROM demo10); Empty set (0.00 sec)
d. EXISTS子查詢
有的時候我們僅僅需要判斷子查詢的結(jié)果集中是否有記錄,而不在乎它的記錄具體是個啥,可以使用把EXISTS
或者NOT EXISTS
放在子查詢語句前邊,就像這樣:[NOT] EXISTS (子查詢)
我們舉一個例子啊:
mysql> SELECT * FROM demo9 WHERE EXISTS (SELECT 1 FROM demo10); +------+------+ | m1 | n1 | +------+------+ | 1 | a | | 2 | b | | 3 | c | +------+------+ 3 rows in set (0.00 sec)
對于子查詢(SELECT 1 FROM demo10)
來說,我們并不關(guān)心這個子查詢最后到底查詢出的結(jié)果是什么,所以查詢列表里填*、某個列名,或者其他啥東系都無所謂,我們真正關(guān)心的是子查詢的結(jié)果集中是否存在記錄。也就是說只要(SELECT 1 FROM demo10)
這個查詢中有記錄,那么整個EXISTS表達式的結(jié)果就為TRUE
。
3.1.4 子查詢語法注意事項
1. 子查詢必須使用括號擴起來
不擴起來的子查詢是非法的,比如這樣:
mysql> SELECT SELECT m1 FROM demo9; ERROR 1064 (42000): You have an error in your SQL syntax; check the manual that corresponds to your MySQL server version for the right syntax to use near 'SELECT m1 FROM demo9' at line 1
2. 在SELECT子句中的子查詢必須是標量子查詢
如果子查詢結(jié)果集中有多個列或者多個行
,都不允許放在SELECT
子句中,也就是查詢列表中,比如這樣就是非法的:
mysql> SELECT (SELECT m1, n1 FROM demo9); ERROR 1241 (21000): Operand should contain 1 column(s)
3. 在想要得到標量子查詢或者行子查詢,但又不能保證子查詢的結(jié)果集只有一條記錄時,應該使用LIMIT 1語句來限制記錄數(shù)量。
4. 對于[NOT] IN/ANY/SOME/ALL子查詢來說,子查詢中不允許有LIMIT語句
比如這樣是非法的:
mysql> SELECT * FROM demo9 WHERE m1 IN (SELECT * FROM demo10 LIMIT 2); ERROR 1235 (42000): This version of MySQL doesn't yet support 'LIMIT & IN/ALL/ANY/SOME subquery'
為啥不合法?人家就這么規(guī)定的,不解釋~ 可能以后的版本會支持吧。正因為[NOT] IN/ANY/SOME/ALL
子查詢不支持LIMIT語句,所以子查詢中的這些語句也就是多余的了
5. ORDER BY子句
子查詢的結(jié)果其實就相當于一個集合,集合里的值排不排序一點都不重要,比如下邊這個語句中的ORDER BY
子句簡直就是畫蛇添足:
SELECT * FROM demo9 WHERE m1 IN (SELECT m2 FROM demo10 ORDER BY m2);
6. DISTINCT語句
集合里的值去不去重也沒啥意義,比如這樣:
SELECT * FROM demo9 WHERE m1 IN (SELECT DISTINCT m2 FROM demo10);
7. 沒有聚集函數(shù)以及HAVING子句的GROUP BY子句
在沒有聚集函數(shù)以及HAVING
子句時,GROUP BY
子句就是個擺設,比如這樣:
SELECT * FROM demo9 WHERE m1 IN (SELECT m2 FROM demo10 GROUP BY m2);
對于這些冗余的語句,查詢優(yōu)化器在一開始就把它們給干掉了。
8. 不允許在一條語句中增刪改某個表的記錄時同時還對該表進行子查詢
比方說這樣:
mysql> DELETE FROM demo9 WHERE m1 < (SELECT MAX(m1) FROM demo9); ERROR 1093 (HY000): You can't specify target table 'demo9' for update in FROM clause
3.2 子查詢在MySQL中是怎么執(zhí)行的
好了,關(guān)于子查詢的基礎語法我們用最快的速度溫習了一遍,如果想了解更多語法細節(jié),大家可以去查看一下MySQL的文檔哈~現(xiàn)在我們就假設各位都懂了啥是個子查詢了喔,接下來就要嘮叨具體某種類型的子查詢在MySQL中是怎么執(zhí)行的了,想想是不是就有一點激動~ 當然,為了故事的順利發(fā)展,我們的例子也需要跟隨形勢換槍換炮,還是要祭出我們在一文帶你了解MySQL之基于成本的優(yōu)化文章中用到的s1
表和s2
表
mysql> create table s1 ( id int not null auto_increment, key1 varchar(100), key2 int, key3 varchar(100), key_part1 varchar(100), key_part2 varchar(100), key_part3 varchar(100), common_field varchar(100), primary key (id), key idx_key1 (key1), unique key idx_key2 (key2), key idx_key3 (key3), key idx_key_part(key_part1, key_part2, key_part3)); Query OK, 0 rows affected (0.04 sec) mysql> create table s2 ( id int not null auto_increment, key1 varchar(100), key2 int, key3 varchar(100), key_part1 varchar(100), key_part2 varchar(100), key_part3 varchar(100), common_field varchar(100), primary key (id), key idx_key1 (key1), unique key idx_key2 (key2), key idx_key3 (key3), key idx_key_part(key_part1, key_part2, key_part3)); Query OK, 0 rows affected (0.04 sec) mysql> insert into s1 select * from demo8; Query OK, 20000 rows affected (0.83 sec) Records: 20000 Duplicates: 0 Warnings: 0 mysql> insert into s2 select * from demo8; Query OK, 20000 rows affected (0.89 sec) Records: 20000 Duplicates: 0 Warnings: 0
這兩個表s1、s2的構(gòu)造是相同的,并且這兩個表里邊都有20000條記錄,除id列外其余的列都插入隨機值。下邊正式開始我們的表演。
3.2.1 小白們眼中子查詢的執(zhí)行方式
在我還是一個單純無知的少年時,覺得子查詢的執(zhí)行方式是這樣的:
如果該子查詢是不相關(guān)子查詢,比如下邊這個查詢:
SELECT * FROM s1WHERE key1 IN (SELECT common_field FROM s2)
我年少時覺得這個查詢是的執(zhí)行方式是這樣的:
- 先單獨執(zhí)行
(SELECT common_field FROM s2)
這個子查詢 - 然后在將上一步子查詢得到的結(jié)果當作外層查詢的參數(shù)再執(zhí)行外層查詢SELECT * FROM s1 WHERE key1 IN (...)。
- 先單獨執(zhí)行
如果該子查詢是相關(guān)子查詢,比如下邊這個查詢:
SELECT * FROM s1 WHERE key1 IN (SELECT common_field FROM s2 WHERE s1.key2 = s2.key2)
這個查詢中的子查詢中出現(xiàn)了
s1.key2 = s2.key2
這樣的條件,意味著該子查詢的執(zhí)行依賴著外層查詢的值,所以我年少時覺得這個查詢的執(zhí)行方式是這樣的:- 先從外層查詢中獲取一條記錄,本例中也就是先從
s1
表中獲取一條記錄 - 然后從上一步驟中獲取的那條記錄中找出子查詢中涉及到的值,本例中就是從
s1
表中獲取的那條記錄中找出s1.key2
列的值,然后執(zhí)行子查詢 - 最后根據(jù)子查詢的查詢結(jié)果來檢測外層查詢WHERE子句的條件是否成立,如果成立,就把外層查詢的那條記錄加入到結(jié)果集,否則就丟棄
- 再次執(zhí)行第一步,獲取第二條外層查詢中的記錄,依次類推~
- 先從外層查詢中獲取一條記錄,本例中也就是先從
不要告訴我只是一個人是這樣認為的~
其實MySQL想了一系列的辦法來優(yōu)化子查詢的執(zhí)行,大部分情況下這些優(yōu)化措施其實挺有效的,但是保不齊有的時候馬失前蹄,下邊我們詳細嘮叨各種不同類型的子查詢具體是怎么執(zhí)行的。
3.2.2 標量子查詢、行子查詢的執(zhí)行方式
我們經(jīng)常在下邊兩個場景中使用到標量子查詢或者行子查詢:
SELECT
子句中,我們前邊說過的在查詢列表中的子查詢必須是標量子查詢- 子查詢使用
=、>、<、>=、<=、<>、!=、<=>
等操作符和某個操作數(shù)組成一個布爾表達式,這樣的子查詢必須是標量子查詢或者行子查詢。
對于上述兩種場景中的不相關(guān)
(注意是不相關(guān)不相關(guān)不相關(guān)
)標量子查詢或者行子查詢來說,它們的執(zhí)行方式是簡單的,比如說下邊這個查詢語句:
SELECT * FROM s1 WHERE key1 = (SELECT common_field FROM s2 WHERE key3 = 'a' LIMIT 1);
它的執(zhí)行方式和年少的我想的一樣:
- 先單獨執(zhí)行
(SELECT common_field FROM s2 WHERE key3 = 'a' LIMIT 1)
這個子查詢 - 然后在將上一步子查詢得到的結(jié)果當作外層查詢的參數(shù)再執(zhí)行外層查詢
SELECT * FROM s1 WHERE key1 = ...
也就是說,對于包含不相關(guān)的標量子查詢或者行子查詢的查詢語句來說,MySQL會分別獨立的執(zhí)行外層查詢和子查詢
,就當作兩個單表查詢就好了。
對于相關(guān)
的標量子查詢或者行子查詢來說,比如下邊這個查詢:
SELECT * FROM s1 WHERE key1 = (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3 LIMIT 1);
事情也和年少的我想的一樣,它的執(zhí)行方式就是這樣的:
- 先從外層查詢中獲取一條記錄,本例中也就是先從
s1
表中獲取一條記錄 - 然后從上一步驟中獲取的那條記錄中找出子查詢中涉及到的值,本例中就是從
s1
表中獲取的那條記錄中找出s1.key3
列的值,然后執(zhí)行子查詢 - 最后根據(jù)子查詢的查詢結(jié)果來檢測外層查詢
WHERE
子句的條件是否成立,如果成立,就把外層查詢的那條記錄加入到結(jié)果集,否則就丟棄。 再次執(zhí)行第一步,獲取第二條外層查詢中的記錄,依次類推~
也就是說對于一開始嘮叨的兩種使用標量子查詢以及行子查詢的場景中,MySQL優(yōu)化器的執(zhí)行方式并沒有什么新鮮的。
3.3 IN子查詢優(yōu)化
3.3.1 物化表的提出
對于不相關(guān)的IN
子查詢,比如這樣:
SELECT * FROM s1 WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');
我們最開始的感覺就是這種不相關(guān)的IN
子查詢和不相關(guān)的標量子查詢或者行子查詢是一樣一樣的,都是把外層查詢和子查詢當作兩個獨立的單表查詢來對待,可是很遺憾的是MySQL為了優(yōu)化IN
子查詢傾注了太多心血(畢竟IN
子查詢是我們?nèi)丈钪凶畛S玫淖硬樵冾愋停哉麄€執(zhí)行過程并不像我們想象的那么簡單~
其實說句老實話,對于不相關(guān)的IN
子查詢來說,如果子查詢的結(jié)果集中的記錄條數(shù)很少,那么把子查詢和外層查詢分別看成兩個單獨的單表查詢效率還是蠻高的,但是如果單獨執(zhí)行子查詢后的結(jié)果集太多的話,就會導致這些問題:
- 結(jié)果集太多,可能內(nèi)存中都放不下~
- 對于外層查詢來說,如果子查詢的結(jié)果集太多,那就意味著IN子句中的參數(shù)特別多,這就導致:
無法有效的使用索引,只能對外層查詢進行全表掃描
在對外層查詢執(zhí)行全表掃描時,由于IN子句中的參數(shù)太多,這會導致檢測一條記錄是否符合和IN子句中的參數(shù)匹配花費的時間太長,比如說IN子句中的參數(shù)只有兩個:
SELECT * FROM tbl_name WHERE column IN (a, b)
這樣相當于需要對
tbl_name
表中的每條記錄判斷一下它的column
列是否符合column = a OR column = b
。在IN子句中的參數(shù)比較少時這并不是什么問題,如果IN
子句中的參數(shù)比較多時,比如這樣:SELECT * FROM tbl_name WHERE column IN (a, b, c ..., ...
)那么這樣每條記錄需要判斷一下它的
column
列是否符合column = a OR column = b OR column = c OR ...
,這樣性能耗費可就多了。
于是MySQL想了一個招:不直接將不相關(guān)子查詢的結(jié)果集當作外層查詢的參數(shù),而是將該結(jié)果集寫入一個臨時表里
。寫入臨時表的過程是這樣的:
該臨時表的列就是子查詢結(jié)果集中的列
寫入臨時表的記錄會被去重
我們說
IN
語句是判斷某個操作數(shù)在不在某個集合中,集合中的值重不重復對整個IN語句的結(jié)果并沒有啥子關(guān)系,所以我們在將結(jié)果集寫入臨時表時對記錄進行去重可以讓臨時表變得更小,更省地方~小提示:
臨時表如何對記錄進行去重?這不是小意思嘛,臨時表也是個表,只要為表中記錄的所有列建立主鍵或者唯一索引就好了嘛~一般情況下子查詢結(jié)果集不會大的離譜,所以會為它建立基于內(nèi)存的使用
Memory
存儲引擎的臨時表,而且會為該表建立哈希索引。小提示:
IN語句的本質(zhì)就是判斷某個操作數(shù)在不在某個集合里,如果集合中的數(shù)據(jù)建立了哈希索引,那么這個匹配的過程就是超級快的。 有同學不知道哈希索引是什么?我這里就不展開了,自己上網(wǎng)找找吧,不會了再來問我~如果子查詢的結(jié)果集非常大,超過了系統(tǒng)變量
tmp_table_size
或者max_heap_table_size
,臨時表會轉(zhuǎn)而使用基于磁盤的存儲引擎來保存結(jié)果集中的記錄,索引類型也對應轉(zhuǎn)變?yōu)锽+樹索引。
MySQL的把這個將子查詢結(jié)果集中的記錄保存到臨時表的過程稱之為物化
(英文名:Materialize
)。為了方便起見,我們就把那個存儲子查詢結(jié)果集的臨時表稱之為物化表
。正因為物化表中的記錄都建立了索引(基于內(nèi)存的物化表有哈希索引,基于磁盤的有B+樹索引),通過索引執(zhí)行IN
語句判斷某個操作數(shù)在不在子查詢結(jié)果集中變得????,從而提升了子查詢語句的性能。
3.3.2 物化表轉(zhuǎn)連接
事情到這就完了?我們還得重新審視一下最開始的那個查詢語句:
SELECT * FROM s1 WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');
當我們把子查詢進行物化之后,假設子查詢物化表的名稱為materialized_table
,該物化表存儲的子查詢結(jié)果集的列為m_val
,那么這個查詢其實可以從下邊兩種角度來看待:
從表s1的角度來看待,整個查詢的意思其實是:對于s1表中的每條記錄來說,如果該記錄的key1列的值在子查詢對應的物化表中,則該記錄會被加入最終的結(jié)果集。畫個圖表示一下就是這樣:
從子查詢物化表的角度來看待,整個查詢的意思其實是:對于子查詢物化表的每個值來說,如果能在s1表中找到對應的key1列的值與該值相等的記錄,那么就把這些記錄加入到最終的結(jié)果集。畫個圖表示如下就是這樣:
也就是說其實上邊的查詢就相當于表s1
和子查詢物化表materialized_table
進行內(nèi)連接:
SELECT s1.* FROM s1 INNER JOIN materialized_table ON key1 = m_val;
轉(zhuǎn)化成內(nèi)連接之后就有意思了,查詢優(yōu)化器可以評估不同連接順序需要的成本是多少,選取成本最低的那種查詢方式執(zhí)行查詢。我們分析一下上述查詢中使用外層查詢的s1
表和物化表materialized_table
進行內(nèi)連接的成本都是由哪幾部分組成的:
如果使用
s1
表作為驅(qū)動表的話,總查詢成本由下邊幾個部分組成:- 物化子查詢時需要的成本
- 掃描s1表時的成本
- s1表中的記錄數(shù)量 × 通過
m_val = xxx
對materialized_table
表進行單表訪問的成本(我們前邊說過物化表中的記錄是不重復的,并且為物化表中的列建里了索引,所以這個步驟顯然是非??斓模?/li>
如果使用
materialized_table
表作為驅(qū)動表的話,總查詢成本由下邊幾個部分組成:- 物化子查詢時需要的成本
- 掃描物化表時的成本
- 物化表中的記錄數(shù)量 × 通過
key1 = xxx
對s1
表進行單表訪問的成本(非常慶幸key1列上建立了索引,所以這個步驟是非??斓模?/li>
MySQL查詢優(yōu)化器會通過運算來選擇上述成本更低的方案來執(zhí)行查詢
3.3.3 將子查詢轉(zhuǎn)換為semi-join
雖然將子查詢進行物化之后再執(zhí)行查詢都會有建立臨時表的成本,但是不管怎么說,我們見識到了將子查詢轉(zhuǎn)換為連接的強大作用,MySQL繼續(xù)開腦洞:能不能不進行物化操作直接把子查詢轉(zhuǎn)換為連接呢?讓我們重新審視一下上邊的查詢語句:
SELECT * FROM s1 WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');
我們可以把這個查詢理解成:對于s1
表中的某條記錄,如果我們能在s2
表(準確的說是執(zhí)行完WHERE s2.key3 = 'a'
之后的結(jié)果集)中找到一條或多條記錄,這些記錄的common_field
的值等于s1
表記錄的key1
列的值,那么該條s1
表的記錄就會被加入到最終的結(jié)果集。這個過程其實和把s1
和s2
兩個表連接起來的效果很像:
SELECT s1.* FROM s1 INNER JOIN s2 ON s1.key1 = s2.common_field WHERE s2.key3 = 'a';
只不過我們不能保證對于s1
表的某條記錄來說,在s2
表(準確的說是執(zhí)行完WHERE
s2.key3 = 'a'
之后的結(jié)果集)中有多少條記錄滿足s1.key1 =s2.common_field
這個條件,不過我們可以分三種情況討論:
情況一:
對于s1
表的某條記錄來說,s2
表中沒有
任何記錄滿足s1.key1 = s2.common_field
這個條件,那么該記錄自然也不會加入到最后的結(jié)果集情況二
:對于s1
表的某條記錄來說,s2
表中有且只有
記錄滿足s1.key1 = s2.common_field
這個條件,那么該記錄會被加入最終的結(jié)果集情況三
:對于s1
表的某條記錄來說,s2
表中至少有2條
記錄滿足s1.key1 = s2.common_field
這個條件,那么該記錄會被多次加入最終的結(jié)果集
對于s1
表的某條記錄來說,由于我們只關(guān)心s2
表中是否存在記錄滿足s1.key1 = s2.common_field
這個條件,而不關(guān)心具體有多少條記錄與之匹配
,又因為有情況三
的存在,我們上邊所說的IN
子查詢和兩表連接之間并不完全等價。但是將子查詢轉(zhuǎn)換為連接又真的可以充分發(fā)揮優(yōu)化器的作用,所以MySQL在這里提出了一個新概念 --- 半連接
(英文名:semi-join
)。將s1表和s2表進行半連接的意思就是:對于s1表的某條記錄來說,我們只關(guān)心在s2表中是否存在與之匹配的記錄是否存在,而不關(guān)心具體有多少條記錄與之匹配,最終的結(jié)果集中只保留s1表的記錄
。為了讓大家有更直觀的感受,我們假設MySQL內(nèi)部是這么改寫上邊的子查詢的:
SELECT s1.* FROM s1 SEMI JOIN s2 ON s1.key1 = s2.common_field WHERE key3 = 'a';
小提示:
semi-join只是在MySQL內(nèi)部采用的一種執(zhí)行子查詢的方式,MySQL并沒有提供面向用戶的semi-join語法,所以我們不需要,也不能嘗試把上邊這個語句放到黑框框里運行,我只是想說明一下上邊的子查詢在MySQL內(nèi)部會被轉(zhuǎn)換為類似上邊語句的半連接~
概念是有了,怎么實現(xiàn)這種所謂的半連接
呢?MySQL準備了好幾種辦法
1. Table pullout (子查詢中的表上拉)
當子查詢的查詢列表處只有主鍵或者唯一索引列
時,可以直接把子查詢中的表上拉
到外層查詢的FROM
子句中,并把子查詢中的搜索條件合并到外層查詢的搜索條件中,比如這個:
SELECT * FROM s1 WHERE key2 IN (SELECT key2 FROM s2 WHERE key3 = 'a');
由于key2
列是s2
表的唯一二級索引
列,所以我們可以直接把s2
表上拉到外層查詢的FROM
子句中,并且把子查詢中的搜索條件合并到外層查詢的搜索條件中,上拉之后的查詢就是這樣的:
SELECT s1.* FROM s1 INNER JOIN s2 ON s1.key2 = s2.key2 WHERE s2.key3 = 'a';
Q1: 為啥當子查詢的查詢列表處只有主鍵
或者唯一索引
列時,就可以直接將子查詢轉(zhuǎn)換為連接查詢呢?
因為主鍵或者唯一索引列中的數(shù)據(jù)本身就是不重復!所以對于同一條s1表中的記錄,你不可能找到兩條以上的符合s1.key2 =s2.key2的記錄~
2. DuplicateWeedout execution strategy (重復值消除)
對于這個查詢來說:
SELECT * FROM s1 WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a');
轉(zhuǎn)換為半連接查詢后,s1
表中的某條記錄可能在s2
表中有多條匹配的記錄,所以該條記錄可能多次被添加到最后的結(jié)果集中,為了消除重復,我們可以建立一個臨時表,比方說這個臨時表長這樣:
CREATE TABLE tmp ( id PRIMARY KEY );
這樣在執(zhí)行連接查詢的過程中,每當某條s1
表中的記錄要加入結(jié)果集時,就首先把這條記錄的id
值加入到這個臨時表里,如果添加成功,說明之前這條s1
表中的記錄并沒有加入最終的結(jié)果集,現(xiàn)在把該記錄添加到最終的結(jié)果集;如果添加失敗,說明這條之前這條s1
表中的記錄已經(jīng)加入過最終的結(jié)果集,這里直接把它丟棄就好了,這種使用臨時表消除semi-join
結(jié)果集中的重復值的方式稱之為Duplicate Weedout
。
3. LooseScan execution strategy (松散索引掃描)
大家看這個查詢:
SELECT * FROM s1 WHERE key3 IN (SELECT key1 FROM s2 WHERE key1 > 'a' AND key1 < 'b');
在子查詢中,對于s2
表的訪問可以使用到key1
列的索引,而恰好子查詢的查詢列表處就是key1
列,這樣在將該查詢轉(zhuǎn)換為半連接查詢后,如果將s2
作為驅(qū)動表執(zhí)行查詢的話,那么執(zhí)行過程就是這樣:
如圖所示,在s2
表的idx_key1
索引中,值為'aa'
的二級索引記錄一共有2條,那么只需要取第一條的值到s1
表中查找s1.key3 = 'aa
'的記錄,如果能在s1
表中找到對應的記錄,那么就把對應的記錄加入到結(jié)果集。依此類推,其他值相同的二級索引記錄,也只需要取第一條記錄的值到s1
表中找匹配的記錄,這種雖然是掃描索引,但只取值相同的記錄的第一條去做匹配操作的方式稱之為松散索引掃描
。
4. Semi-join Materialization execution strategy
我們之前介紹的先把外層查詢的IN
子句中的不相關(guān)子查詢進行物化,然后再進行外層查詢的表和物化表的連接本質(zhì)上也算是一種semi-join,只不過由于物化表中沒有重復的記錄,所以可以直接將子查詢轉(zhuǎn)為連接查詢。
5. FirstMatch execution strategy (首次匹配)
FirstMatch
是一種最原始的半連接執(zhí)行方式,跟我們年少時認為的相關(guān)子查詢的執(zhí)行方式是一樣一樣的,就是說先取一條外層查詢的中的記錄,然后到子查詢的表中尋找符合匹配條件的記錄,如果能找到一條,則將該外層查詢的記錄放入最終的結(jié)果集并且停止查找更多匹配的記錄,如果找不到則把該外層查詢的記錄丟棄掉;然后再開始取下一條外層查詢中的記錄,重復上邊這個過程。
對于某些使用IN語句的相關(guān)子查詢,比方這個查詢:
SELECT * FROM s1 WHERE key1 IN (SELECT common_field FROM s2 WHERE s1.key3 = s2.key3);
它也可以很方便的轉(zhuǎn)為半連接,轉(zhuǎn)換后的語句類似這樣:
SELECT s1.* FROM s1 SEMI JOIN s2 ON s1.key1 = s2.common_field AND s1.key3 = s2.key3;
然后就可以使用我們上邊介紹過的DuplicateWeedout
、LooseScan
、FirstMatch
等半連接執(zhí)行策略來執(zhí)行查詢,當然,如果子查詢的查詢列表處只有主鍵或者唯一二級索引列,還可以直接使用table pullout
的策略來執(zhí)行查詢,但是需要大家注意的是,由于相關(guān)子查詢并不是一個獨立的查詢,所以不能轉(zhuǎn)換為物化表來執(zhí)行查詢
。
3.3.4 semi-join的適用條件
當然,并不是所有包含IN
子查詢的查詢語句都可以轉(zhuǎn)換為semi-join
,只有形如這樣的查詢才可以被轉(zhuǎn)換為semi-join
:
SELECT ... FROM outer_tables WHERE expr IN (SELECT ... FROM inner_tables ...) AND ...
或者這樣的形式也可以:
SELECT ... FROM outer_tables WHERE (oe1, oe2, ...) IN (SELECT ie1, ie2, ... FROM inner_tables ...) AND ...
用文字總結(jié)一下,只有符合下邊這些條件的子查詢才可以被轉(zhuǎn)換為semi-join
:
- 該子查詢必須是和
IN
語句組成的布爾表達式,并且在外層查詢的WHERE
或者ON
子句中出現(xiàn) - 外層查詢也可以有其他的搜索條件,只不過和
IN
子查詢的搜索條件必須使用AND
連接起來 - 該子查詢必須是一個單一的查詢,不能是由若干查詢由
UNION
連接起來的形式 - 該子查詢不能包含
GROUP BY
或者HAVING
語句或者聚集函數(shù) - ... 還有一些條件比較少見,就不嘮叨啦~
3.3.5 不適用于semi-join的情況
對于一些不能將子查詢轉(zhuǎn)位semi-join的情況,典型的比如下邊這幾種:
1. 外層查詢的WHERE條件中有其他搜索條件與IN子查詢組成的布爾表達式使用OR連接起來
SELECT * FROM s1 WHERE key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a') OR key2 > 100;
2. 使用NOT IN而不是IN的情況
SELECT * FROM s1 WHERE key1 NOT IN (SELECT common_field FROM s2 WHERE key3 = 'a')
3. 在SELECT子句中的IN子查詢的情況
SELECT key1 IN (SELECT common_field FROM s2 WHERE key3 = 'a') FROM s1 ;
4. 子查詢中包含GROUP BY、HAVING或者聚集函數(shù)的情況
SELECT * FROM s1 WHERE key2 IN (SELECT COUNT(*) FROM s2 GROUP BY key1);
5. 子查詢中包含UNION的情況
SELECT * FROM s1 WHERE key1 IN ( SELECT common_field FROM s2 WHERE key3 = 'a' UNION SELECT common_field FROM s2 WHERE key3 = 'b' );
MySQL仍然留了兩口絕活來優(yōu)化不能轉(zhuǎn)為semi-join
查詢的子查詢,那就是:
1. 對于不相關(guān)子查詢來說,可以嘗試把它們物化之后再參與查詢
比如我們上邊提到的這個查詢:
SELECT * FROM s1 WHERE key1 NOT IN (SELECT common_field FROM s2 WHERE key3 = 'a')
先將子查詢物化,然后再判斷key1是否在物化表的結(jié)果集中可以加快查詢執(zhí)行的速度。
小提示:
請注意這里將子查詢物化之后不能轉(zhuǎn)為和外層查詢的表的連接,只能是先掃描s1表,然后對s1表的某條記錄來說,判斷該記錄的key1值在不在物化表中。
2. 不管子查詢是相關(guān)的還是不相關(guān)的,都可以把IN子查詢嘗試專為EXISTS子查詢
其實對于任意一個IN子查詢來說,都可以被轉(zhuǎn)為EXISTS子查詢,通用的例子如下:
outer_expr IN (SELECT inner_expr FROM ... WHERE subquery_where)
可以被轉(zhuǎn)換為:
EXISTS (SELECT inner_expr FROM ... WHERE subquery_where AND outer_expr=inner_expr)
當然這個過程中有一些特殊情況,比如在outer_expr
或者inner_expr
值為NULL
的情況下就比較特殊。因為有NULL
值作為操作數(shù)的表達式結(jié)果往往是NULL
,比方說:
mysql> SELECT NULL IN (1, 2, 3); +-------------------+ | NULL IN (1, 2, 3) | +-------------------+ | NULL | +-------------------+ 1 row inset (0.00 sec) mysql> SELECT 1 IN (1, 2, 3); +----------------+ | 1 IN (1, 2, 3) | +----------------+ | 1 | +----------------+ 1 row inset (0.00 sec) mysql> SELECT NULL IN (NULL); +----------------+ | NULL IN (NULL) | +----------------+ | NULL | +----------------+ 1 row inset (0.00 sec)
而EXISTS子查詢的結(jié)果肯定是TRUE
或者FASLE
:
mysql> SELECT EXISTS (SELECT 1 FROM s1 WHERE NULL = 1); +------------------------------------------+ | EXISTS (SELECT 1 FROM s1 WHERE NULL = 1) | +------------------------------------------+ | 0 | +------------------------------------------+ 1 row inset (0.01 sec) mysql> SELECT EXISTS (SELECT 1 FROM s1 WHERE 1 = NULL); +------------------------------------------+ | EXISTS (SELECT 1 FROM s1 WHERE 1 = NULL) | +------------------------------------------+ | 0 | +------------------------------------------+ 1 row inset (0.00 sec) mysql> SELECT EXISTS (SELECT 1 FROM s1 WHERE NULL = NULL); +---------------------------------------------+ | EXISTS (SELECT 1 FROM s1 WHERE NULL = NULL) | +---------------------------------------------+ | 0 | +---------------------------------------------+ 1 row inset (0.00 sec)
但是幸運的是,我們大部分使用IN
子查詢的場景是把它放在WHERE
或者ON
子句中,而WHERE
或者ON
子句是不區(qū)分NULL
和FALSE
的,比方說:
mysql> SELECT 1 FROM s1 WHERE NULL; Empty set (0.00 sec) mysql> SELECT 1 FROM s1 WHERE FALSE; Empty set (0.00 sec)
所以只要我們的IN子查詢是放在WHERE
或者ON
子句中的,那么IN -> EXISTS
的轉(zhuǎn)換就是沒問題的。說了這么多,為啥要轉(zhuǎn)換呢?這是因為不轉(zhuǎn)換的話可能用不到索引,比方說下邊這個查詢:
SELECT * FROM s1 WHERE key1 IN (SELECT key3 FROM s2 where s1.common_field = s2.common_field) OR key2 > 1000;
這個查詢中的子查詢是一個相關(guān)子查詢,而且子查詢執(zhí)行的時候不能使用到索引,但是將它轉(zhuǎn)為EXISTS
子查詢后卻可以使用到索引:
SELECT * FROM s1 WHERE EXISTS (SELECT 1 FROM s2 wheres1.common_field = s2.common_field AND s2.key3 = s1.key1) OR key2 > 1000;
轉(zhuǎn)為EXISTS
子查詢時便可以使用到s2
表的idx_key3
索引了。
需要注意的是,如果IN
子查詢不滿足轉(zhuǎn)換為semi-join
的條件,又不能轉(zhuǎn)換為物化表或者轉(zhuǎn)換為物化表的成本太大,那么它就會被轉(zhuǎn)換為EXISTS
查詢。
小提示:
在MySQL5.5以及之前的版本沒有引進semi-join和物化的方式優(yōu)化子查詢時,優(yōu)化器都會把IN子查詢轉(zhuǎn)換為EXISTS子查詢,好多同學就驚呼我明明寫的是一個不相關(guān)子查詢,為啥要按照執(zhí)行相關(guān)子查詢的方式來執(zhí)行呢?所以當時好多聲音都是建議大家把子查詢轉(zhuǎn)為連接,不過隨著MySQL的發(fā)展,最近的版本中引入了非常多的子查詢優(yōu)化策略,大家可以稍微放心的使用子查詢了,內(nèi)部的轉(zhuǎn)換工作優(yōu)化器會為大家自動實現(xiàn)。
小結(jié)一下
如果IN
子查詢符合轉(zhuǎn)換為semi-join
的條件,查詢優(yōu)化器會優(yōu)先把該子查詢轉(zhuǎn)換為semi-join,然后再考慮下邊5種執(zhí)行半連接的策略中哪個成本最低:
- Table pullout
- DuplicateWeedout
- LooseScan Materialization
- FirstMatch 選擇成本最低的那種執(zhí)行策略來執(zhí)行子查詢。
如果IN
子查詢不符合轉(zhuǎn)換為semi-join
的條件,那么查詢優(yōu)化器會從下邊兩種策略中找出一種成本更低的方式執(zhí)行子查詢:
- 先將子查詢物化之后再執(zhí)行查詢
- 執(zhí)行IN to EXISTS轉(zhuǎn)換。
3.4 ANY/ALL子查詢優(yōu)化
如果ANY/ALL子查詢是不相關(guān)子查詢的話,它們在很多場合都能轉(zhuǎn)換成我們熟悉的方式去執(zhí)行,比方說:
原始表達式 | 轉(zhuǎn)換為 |
---|---|
< ANY (SELECT inner_expr ...) | < (SELECT MAX(inner_expr) ...) |
> ANY (SELECT inner_expr ...) | > (SELECT MIN(inner_expr) ...) |
< ALL (SELECT inner_expr ...) | < (SELECT MIN(inner_expr) ...) |
> ALL (SELECT inner_expr ...) | > (SELECT MAX(inner_expr) ...) |
3.5 [NOT] EXISTS子查詢的執(zhí)行
如果[NOT] EXISTS
子查詢是不相關(guān)子查詢,可以先執(zhí)行子查詢,得出該[NOT] EXISTS
子查詢的結(jié)果是TRUE
還是FALSE
,并重寫原先的查詢語句,比如對這個查詢來說:
SELECT * FROM s1 WHERE EXISTS (SELECT 1 FROM s2 WHERE key1 = 'a') OR key2 > 100;
因為這個語句里的子查詢是不相關(guān)子查詢,所以優(yōu)化器會首先執(zhí)行該子查詢,假設該EXISTS子查詢的結(jié)果為TRUE
,那么接著優(yōu)化器會重寫查詢?yōu)椋?/p>
SELECT * FROM s1 WHERE TRUE OR key2 > 100;
進一步簡化后就變成了:
SELECT * FROM s1 WHERE TRUE;
對于相關(guān)的[NOT] EXISTS子查詢來說,比如這個查詢:
SELECT * FROM s1 WHERE EXISTS (SELECT 1 FROM s2 WHERE s1.common_field = s2.common_field);
很不幸,這個查詢只能按照我們年少時的那種執(zhí)行相關(guān)子查詢的方式來執(zhí)行。不過如果[NOT] EXISTS子查詢中如果可以使用索引的話,那查詢速度也會加快不少,比如:
SELECT * FROM s1 WHERE EXISTS (SELECT 1 FROM s2 WHERE s1.common_field = s2.key1);
上邊這個EXISTS子查詢中可以使用idx_key1來加快查詢速度。
3.6 對于派生表的優(yōu)化
我們前邊說過把子查詢放在外層查詢的FROM
子句后,那么這個子查詢的結(jié)果相當于一個派生表,比如下邊這個查詢:
SELECT * FROM ( SELECT id AS d_id, key3 AS d_key3 FROM s2 WHERE key1 = 'a' ) AS derived_s1 WHERE d_key3 = 'a';
子查詢( SELECT id AS d_id, key3 AS d_key3 FROM s2 WHERE key1 = 'a')
的結(jié)果就相當于一個派生表,這個表的名稱是derived_s1
,該表有兩個列,分別是d_id
和d_key3
對于含有派生表的查詢,MySQL提供了兩種執(zhí)行策略:
1. 最容易想到的就是把派生表物化
我們可以將派生表的結(jié)果集寫到一個內(nèi)部的臨時表中,然后就把這個物化表當作普通表一樣參與查詢。當然,在對派生表進行物化時,MySQL使用了一種稱為延遲物化的策略,也就是在查詢中真正使用到派生表時才回去嘗試物化派生表,而不是還沒開始執(zhí)行查詢呢就把派生表物化掉。比方說對于下邊這個含有派生表的查詢來說:
SELECT * FROM ( SELECT * FROM s1 WHERE key1 = 'a' ) AS derived_s1 INNER JOIN s2 ON derived_s1.key1 = s2.key1 WHERE s2.key2 = 1;
如果采用物化派生表的方式來執(zhí)行這個查詢的話,那么執(zhí)行時首先會到s2
表中找出滿足s2.key2 = 1
的記錄,如果壓根?找不到,說明參與連接的s2表記錄就是空的,所以整個查詢的結(jié)果集就是空的,所以也就沒有必要去物化查詢中的派生表了。
2. 將派生表和外層的表合并,也就是將查詢重寫為沒有派生表的形式
我們來看這個賊簡單的包含派生表的查詢:
SELECT * FROM (SELECT * FROM s1 WHERE key1 = 'a') AS derived_s1;
這個查詢本質(zhì)上就是想查看s1
表中滿足key1 = 'a'
條件的的全部記錄,所以和下邊這個語句是等價的:
SELECT * FROM s1 WHERE key1 = 'a';
對于一些稍微復雜的包含派生表的語句,比如我們上邊提到的那個:
SELECT * FROM ( SELECT * FROM s1 WHERE key1 = 'a' ) AS derived_s1 INNER JOIN s2 ON derived_s1.key1 = s2.key1 WHERE s2.key2 = 1;
我們可以將派生表與外層查詢的表合并,然后將派生表中的搜索條件放到外層查詢的搜索條件中,就像這樣:
SELECT * FROM s1 INNER JOIN s2 ON s1.key1 = s2.key1 WHERE s1.key1 = 'a' AND s2.key2 = 1;
這樣通過將外層查詢和派生表合并的方式成功的消除了派生表,也就意味著我們沒必要再付出創(chuàng)建和訪問臨時表的成本了??墒遣⒉皇撬袔в信缮淼牟樵兌寄鼙怀晒Φ暮屯鈱硬樵兒喜?,當派生表中有這些語句就不可以和外層查詢合并:
- 聚集函數(shù),比如MAX()、MIN()、SUM()啥的
- DISTINCT
- GROUP BY
- HAVING
- LIMIT
- UNION 或者 UNION ALL
- 派生表對應的子查詢的SELECT子句中含有另一個子查詢
- ... 還有些不常用的情況就不多說了哈~
所以MySQL在執(zhí)行帶有派生表的時候,優(yōu)先嘗試把派生表和外層查詢合并掉,如果不行的話,再把派生表物化掉執(zhí)行查詢。
至此今天的學習就到此結(jié)束了,愿您成為堅不可摧的自己~~~
以上就是一文帶你了解MySQL基于規(guī)則的優(yōu)化的詳細內(nèi)容,更多關(guān)于MySQL基于規(guī)則優(yōu)化的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
mysql日志系統(tǒng)redo log和bin log介紹
這篇文章主要介紹了mysql日志系統(tǒng)redo log和bin log介紹,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下2022-08-08Mysql數(shù)據(jù)庫中把varchar類型轉(zhuǎn)化為int類型的方法
這篇文章主要介紹了Mysql數(shù)據(jù)庫中把varchar類型轉(zhuǎn)化為int類型的方法的相關(guān)資料,非常不錯,具有參考借鑒價值,需要的朋友可以參考下2016-07-07MySQL asc、desc數(shù)據(jù)排序的實現(xiàn)
這篇文章主要介紹了MySQL asc、desc數(shù)據(jù)排序的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-12-12mysql數(shù)據(jù)庫decimal類型與decimal長度用法詳解
在MySQL中decimal是一種用于存儲精確數(shù)字的數(shù)據(jù)類型,下面這篇文章主要給大家介紹了關(guān)于mysql數(shù)據(jù)庫decimal類型與decimal長度用法的相關(guān)資料,文中通過代碼介紹的非常詳細,需要的朋友可以參考下2024-01-01在linux服務器上配置mysql并開放3306端口的操作步驟
這篇文章主要介紹了在linux服務器上配置mysql并開放3306端口,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-09-09