PostgreSQL常用優(yōu)化技巧示例介紹

更新時(shí)間：2022年09月15日 17:07:12 作者：foucus、

PostgreSQL的SQL優(yōu)化技巧其實(shí)和大多數(shù)使用CBO優(yōu)化器的數(shù)據(jù)庫(kù)類似，因此一些常用的SQL優(yōu)化改寫技巧在PostgreSQL也是能夠使用的。當(dāng)然也會(huì)有一些不同的地方，今天我們來(lái)看看一些在PostgreSQL常用的SQL優(yōu)化改寫技巧

1、標(biāo)量子查詢與filter

當(dāng)一個(gè)查詢?cè)趕elect和from之間，那么這種子查詢就是標(biāo)量子查詢。實(shí)際應(yīng)用中，很多人在寫SQL時(shí)為了方便會(huì)寫一堆標(biāo)量子查詢的SQL，在表數(shù)據(jù)不大時(shí)，一般并不會(huì)有什么影響，但當(dāng)數(shù)據(jù)量較大時(shí)，往往會(huì)對(duì)性能造成巨大影響。

因?yàn)闃?biāo)量子查詢類似于一個(gè)天然的嵌套循環(huán)，而且驅(qū)動(dòng)表固定為主表。如下所示：

bill=# explain select empno,ename,sal,deptno,
bill-# (select d.dname from dept d where d.deptno = e.deptno) as dname
bill-# from emp e;
                          QUERY PLAN
--------------------------------------------------------------
 Seq Scan on emp e  (cost=0.00..15.84 rows=14 width=64)
   SubPlan 1
     ->  Seq Scan on dept d  (cost=0.00..1.05 rows=1 width=9)
           Filter: (deptno = e.deptno)
(4 rows)

對(duì)于上面的SQL，emp表每輸出一行數(shù)據(jù)，都要去dept表中全表掃描一遍。

而我們都知道，嵌套循環(huán)的被驅(qū)動(dòng)表的連接列必須包含在索引中，同理，標(biāo)量子查詢的表的連接列也必須包含在索引中。但是我們?cè)趯?shí)際寫SQL時(shí)還是要避免使用標(biāo)量子查詢，否則主表返回大量數(shù)據(jù)時(shí)，子表得被多次遍歷，從而對(duì)SQL性能產(chǎn)生巨大影響。

那么對(duì)于標(biāo)量子查詢的SQL我們?cè)撛趺磧?yōu)化呢？最常用的就是改寫成外連接，這樣對(duì)于PostgreSQL的優(yōu)化器而言可以根據(jù)實(shí)際情況去選擇表的連接方式。這里需要注意的是，不能將標(biāo)量子查詢改成內(nèi)連接，我們前面的例子中也可以看到，標(biāo)量子查詢實(shí)際是一個(gè)傳值的過(guò)程，當(dāng)主表傳值給子表時(shí)，如果沒(méi)有相應(yīng)的值則會(huì)顯示NULL，而如果使用內(nèi)連接的話這部分?jǐn)?shù)據(jù)就丟失了。

因此，上面的標(biāo)量子查詢可以改寫成：

可以看到，優(yōu)化器根據(jù)實(shí)際情況選擇了更合適的hash join。

bill=# explain select e.empno,e.ename,e.sal,e.deptno,d.dname
bill-# from emp e
bill-# left join dept d on (d.deptno = e.deptno);
                            QUERY PLAN
-------------------------------------------------------------------
 Hash Left Join  (cost=1.09..2.31 rows=14 width=27)
   Hash Cond: (e.deptno = d.deptno)
   ->  Seq Scan on emp e  (cost=0.00..1.14 rows=14 width=18)
   ->  Hash  (cost=1.04..1.04 rows=4 width=13)
         ->  Seq Scan on dept d  (cost=0.00..1.04 rows=4 width=13)
(5 rows)

當(dāng)主表連接列是外鍵，而子表的連接列是主鍵時(shí)，使用內(nèi)連接也可以，因?yàn)橥怄I自然不會(huì)存在NULL值。

bill=# explain select e.empno,e.ename,e.sal,e.deptno,d.dname
bill-# from emp e
bill-# inner join dept d on (d.deptno = e.deptno);
                            QUERY PLAN
-------------------------------------------------------------------
 Hash Join  (cost=1.09..2.31 rows=14 width=27)
   Hash Cond: (e.deptno = d.deptno)
   ->  Seq Scan on emp e  (cost=0.00..1.14 rows=14 width=18)
   ->  Hash  (cost=1.04..1.04 rows=4 width=13)
         ->  Seq Scan on dept d  (cost=0.00..1.04 rows=4 width=13)
(5 rows)

除了標(biāo)量子查詢外，往往filter也會(huì)產(chǎn)生類似的情況，因?yàn)樵趂ilter中驅(qū)動(dòng)表也會(huì)被固定住，那么優(yōu)化器可能會(huì)選擇低效的執(zhí)行計(jì)劃。而對(duì)于PostgreSQL而言本身也不支持hint功能，如果錯(cuò)誤的執(zhí)行計(jì)劃被固定，那么往往只能去改寫SQL。

這里說(shuō)明下下filter，在PostgreSQL中filter主要有2種情況，一種是我們常見(jiàn)的where后面過(guò)濾數(shù)據(jù)的，這種一般不會(huì)產(chǎn)生什么性能問(wèn)題，例如：

bill=# explain select * from t where id < 10;
                      QUERY PLAN
-------------------------------------------------------
 Seq Scan on t  (cost=0.00..16925.00 rows=100 width=4)
   Filter: (id < 10)
(2 rows)

而另一種就是filter中是一些表的連接條件，這種呢便是我們前面說(shuō)的情況，往往需要去關(guān)注的，例如：

bill=# explain select  exists (select 1 from t where t.id=n.id) from n;
                         QUERY PLAN
-------------------------------------------------------------
 Seq Scan on n  (cost=0.00..169250145.00 rows=10000 width=1)
   SubPlan 1
     ->  Seq Scan on t  (cost=0.00..16925.00 rows=1 width=0)
           Filter: (id = n.id)
(4 rows)

那么哪些寫法會(huì)容易產(chǎn)生filter呢？在PostgreSQL中當(dāng)使用exists或者not exists時(shí)，或者子查詢中有固話子查詢的關(guān)鍵詞，如union、union all、cube、rollup、limit等，那么執(zhí)行計(jì)劃往往容易產(chǎn)生filter。

因此上面的SQL我們用in去替換exists進(jìn)行改寫：

bill=# explain select id in (select id from t) from n;
                               QUERY PLAN
-------------------------------------------------------------------------
 Seq Scan on n  (cost=0.00..129160170.00 rows=10000 width=1)
   SubPlan 1
     ->  Materialize  (cost=0.00..23332.00 rows=1000000 width=4)
           ->  Seq Scan on t  (cost=0.00..14425.00 rows=1000000 width=4)
(4 rows)

除此之外，在PostgreSQL中我們更推薦使用= any的方式去改寫該類SQL：

bill=# explain select id = any(array(select id from t)) from n;
                            QUERY PLAN
-------------------------------------------------------------------
 Seq Scan on n  (cost=14425.00..14695.00 rows=10000 width=1)
   InitPlan 1 (returns $0)
     ->  Seq Scan on t  (cost=0.00..14425.00 rows=1000000 width=4)
(3 rows)

當(dāng)然這并不是說(shuō)in的寫法就一定比exists要好，只是相較于exists更不容易產(chǎn)生filter。這是為什么呢？因?yàn)槿绻硬樵冎邪覀兩厦嫣岬降墓袒P(guān)鍵字時(shí)，子查詢會(huì)被固化為一個(gè)整體，當(dāng)采用exists寫法時(shí)，如果子查詢中有主表的連接列，那么便只能是主表通過(guò)連接列給子查詢中的表傳值，因此會(huì)選擇filter。而使用in的寫法，即使子查詢被固化，但如果沒(méi)有主表連接列的字段，那么便不會(huì)選擇filter。

2、視圖合并

不知道大家有沒(méi)有遇到過(guò)類似下面的情況：

select xxx from () t1, () t2 where t1.id = t2.id;

明明t1和t2兩個(gè)子查詢單獨(dú)執(zhí)行都很快，但是放到一起速度卻變得特別慢，這種情況往往就是視圖合并所導(dǎo)致的。

例如下面的SQL：

我們按照SQL中的順序來(lái)看應(yīng)該是emp和dept兩表先進(jìn)行關(guān)聯(lián)，然后再去和salgrade表關(guān)聯(lián)。但執(zhí)行計(jì)劃中的順序卻變成了emp和salgrade表先關(guān)聯(lián)，最后才去關(guān)聯(lián)dept表。

這說(shuō)明發(fā)生了視圖合并，即視圖/子查詢中的內(nèi)容被拆開(kāi)了。

bill=# explain select a.*,c.grade
bill-#     from (select ename,sal,a.deptno,b.dname
bill(#         from emp a,dept b
bill(#         where a.deptno = b.deptno) a,
bill-#         salgrade c
bill-#     where a.sal between c.losal and c.hisal;
                                 QUERY PLAN
-----------------------------------------------------------------------------
 Hash Join  (cost=1.09..4.56 rows=8 width=27)
   Hash Cond: (a.deptno = b.deptno)
   ->  Nested Loop  (cost=0.00..3.43 rows=8 width=18)
         Join Filter: ((a.sal >= c.losal) AND (a.sal <= c.hisal))
         ->  Seq Scan on emp a  (cost=0.00..1.14 rows=14 width=14)
         ->  Materialize  (cost=0.00..1.07 rows=5 width=12)
               ->  Seq Scan on salgrade c  (cost=0.00..1.05 rows=5 width=12)
   ->  Hash  (cost=1.04..1.04 rows=4 width=13)
         ->  Seq Scan on dept b  (cost=0.00..1.04 rows=4 width=13)
(9 rows)

從上面的例子可以看出，視圖合并一般產(chǎn)生性能問(wèn)題都是因?yàn)榘l(fā)生視圖合并后表的連接順序變化導(dǎo)致的。不過(guò)一般優(yōu)化器這么做是為了幫我們選擇更合適的表連接順序，而當(dāng)優(yōu)化器選擇了錯(cuò)誤的連接順序時(shí)，我們就有必要對(duì)SQL進(jìn)行改寫了。

由于PostgreSQL中我們無(wú)法使用hint來(lái)讓優(yōu)化器禁止視圖合并，所以我們便需要了解一些SQL改寫的技巧。

和前面的filter一樣，當(dāng)我們將視圖/子查詢固化后，那么便不能進(jìn)行視圖合并。因此上面的SQL我們可以改寫為：

加上group by后，子查詢被固化，視圖沒(méi)有發(fā)生合并，emp和dept表先進(jìn)行關(guān)聯(lián)了。

bill=# explain select a.*,c.grade
bill-#     from (select ename,sal,a.deptno,b.dname
bill(#         from emp a,dept b
bill(#         where a.deptno = b.deptno group by ename,sal,a.deptno,b.dname) a,
bill-#         salgrade c
bill-#     where a.sal between c.losal and c.hisal;
                                  QUERY PLAN
-------------------------------------------------------------------------------
 Nested Loop  (cost=2.45..5.02 rows=8 width=27)
   Join Filter: ((a.sal >= c.losal) AND (a.sal <= c.hisal))
   ->  HashAggregate  (cost=2.45..2.59 rows=14 width=23)
         Group Key: a.ename, a.sal, a.deptno, b.dname
         ->  Hash Join  (cost=1.09..2.31 rows=14 width=23)
               Hash Cond: (a.deptno = b.deptno)
               ->  Seq Scan on emp a  (cost=0.00..1.14 rows=14 width=14)
               ->  Hash  (cost=1.04..1.04 rows=4 width=13)
                     ->  Seq Scan on dept b  (cost=0.00..1.04 rows=4 width=13)
   ->  Materialize  (cost=0.00..1.07 rows=5 width=12)
         ->  Seq Scan on salgrade c  (cost=0.00..1.05 rows=5 width=12)
(11 rows)

3、謂詞推入

說(shuō)完視圖合并，我們?cè)賮?lái)看看你視圖不能合并時(shí)會(huì)出現(xiàn)的一種情況——謂詞推入。即對(duì)于那些不能合并的視圖，并且有謂詞進(jìn)行過(guò)濾，CBO會(huì)將謂詞過(guò)濾條件推入到視圖內(nèi)，為了盡早的過(guò)濾掉無(wú)用的數(shù)據(jù)，從而提升性能。

從CBO的角度來(lái)看，進(jìn)行謂詞推入自然是好的，因?yàn)榭梢蕴崆斑^(guò)濾掉不需要的數(shù)據(jù)。但是如果推入的謂詞是連接列的，那么可能導(dǎo)致表的join產(chǎn)生變化，SQL性能變得更差。

如下SQL所示：

外層的謂詞d.deptno between c.losal and c.hisal推入到了視圖里面。

bill=# create or replace view v1 as select ename,sal,a.deptno,b.dname
bill-#         from emp a,dept b
bill-#         where a.deptno = b.deptno;
CREATE VIEW
bill=# explain select d.*,c.grade from v1 d,salgrade c
bill-#     where d.deptno between c.losal and c.hisal;
                                 QUERY PLAN
-----------------------------------------------------------------------------
 Hash Join  (cost=1.09..4.56 rows=8 width=27)
   Hash Cond: (a.deptno = b.deptno)
   ->  Nested Loop  (cost=0.00..3.43 rows=8 width=18)
         Join Filter: ((a.deptno >= c.losal) AND (a.deptno <= c.hisal))
         ->  Seq Scan on emp a  (cost=0.00..1.14 rows=14 width=14)
         ->  Materialize  (cost=0.00..1.07 rows=5 width=12)
               ->  Seq Scan on salgrade c  (cost=0.00..1.05 rows=5 width=12)
   ->  Hash  (cost=1.04..1.04 rows=4 width=13)
         ->  Seq Scan on dept b  (cost=0.00..1.04 rows=4 width=13)
(9 rows)

那我們?cè)撊绾畏乐怪^詞內(nèi)推呢？在Oracle中可以通過(guò)關(guān)閉連接列的謂詞推入的隱藏參數(shù)_push_join_predicate來(lái)實(shí)現(xiàn)，那么在PostgreSQL中又該如何實(shí)現(xiàn)呢？

和上面類似，我們可以將視圖固化來(lái)避免這種情況，但一般來(lái)說(shuō)不建議將視圖固化，因?yàn)榇蟛糠智闆r謂詞推入大多數(shù)對(duì)性能是有好處的。例如當(dāng)我們?cè)谝晥D中使用limit時(shí)會(huì)導(dǎo)致謂詞無(wú)法推入，因此一般也不建議在視圖中使用limit，為什么呢？因?yàn)槿绻^詞進(jìn)行推入的話，limit取到的值可能就不同了，會(huì)對(duì)結(jié)果集產(chǎn)生影響，所以自然不能推入了，因?yàn)閮?yōu)化器的任何等價(jià)轉(zhuǎn)換都是在不改變SQL結(jié)果的情況下才能進(jìn)行的。

到此這篇關(guān)于PostgreSQL常用優(yōu)化技巧示例介紹的文章就介紹到這了,更多相關(guān)PostgreSQL優(yōu)化技巧內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: