用實例詳解Python中的Django框架中prefetch_related()函數(shù)對數(shù)據(jù)庫查詢的優(yōu)化

更新時間：2015年04月01日 15:24:18 作者：CuGBabyBeaR

這篇文章主要介紹了用實例詳解Python中的Django框架中prefetch_related()函數(shù)對數(shù)據(jù)庫查詢的優(yōu)化,可減少對數(shù)據(jù)庫的查詢次數(shù)從而優(yōu)化性能,需要的朋友可以參考下

實例的背景說明

假定一個個人信息系統(tǒng)，需要記錄系統(tǒng)中各個人的故鄉(xiāng)、居住地、以及到過的城市。數(shù)據(jù)庫設計如下：

201541150650059.jpg (591×250)

Models.py 內容如下：

from django.db import models
 
class Province(models.Model):
 name = models.CharField(max_length=10)
 def __unicode__(self):
  return self.name
 
class City(models.Model):
 name = models.CharField(max_length=5)
 province = models.ForeignKey(Province)
 def __unicode__(self):
  return self.name
 
class Person(models.Model):
 firstname = models.CharField(max_length=10)
 lastname = models.CharField(max_length=10)
 visitation = models.ManyToManyField(City, related_name = "visitor")
 hometown = models.ForeignKey(City, related_name = "birth")
 living  = models.ForeignKey(City, related_name = "citizen")
 def __unicode__(self):
  return self.firstname + self.lastname

注1：創(chuàng)建的app名為“QSOptimize”

注2：為了簡化起見，`qsoptimize_province` 表中只有2條數(shù)據(jù)：湖北省和廣東省，`qsoptimize_city`表中只有三條數(shù)據(jù)：武漢市、十堰市和廣州市

prefetch_related()

對于多對多字段（ManyToManyField）和一對多字段，可以使用prefetch_related()來進行優(yōu)化?；蛟S你會說，沒有一個叫OneToManyField的東西啊。實際上，F(xiàn)oreignKey就是一個多對一的字段，而被ForeignKey關聯(lián)的字段就是一對多字段了。

作用和方法

prefetch_related()和select_related()的設計目的很相似，都是為了減少SQL查詢的數(shù)量，但是實現(xiàn)的方式不一樣。后者是通過JOIN語句，在SQL查詢內解決問題。但是對于多對多關系，使用SQL語句解決就顯得有些不太明智，因為JOIN得到的表將會很長，會導致SQL語句運行時間的增加和內存占用的增加。若有n個對象，每個對象的多對多字段對應Mi條，就會生成Σ(n)Mi 行的結果表。

prefetch_related()的解決方法是，分別查詢每個表，然后用Python處理他們之間的關系。繼續(xù)以上邊的例子進行說明，如果我們要獲得張三所有去過的城市，使用prefetch_related()應該是這么做：

>>> zhangs = Person.objects.prefetch_related('visitation').get(firstname=u"張",lastname=u"三")
>>> for city in zhangs.visitation.all() :
...  print city
...

上述代碼觸發(fā)的SQL查詢如下：

SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`,
`QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`
FROM `QSOptimize_person`
WHERE (`QSOptimize_person`.`lastname` = '三' AND `QSOptimize_person`.`firstname` = '張');
 
SELECT (`QSOptimize_person_visitation`.`person_id`) AS `_prefetch_related_val`, `QSOptimize_city`.`id`,
`QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)
WHERE `QSOptimize_person_visitation`.`person_id` IN (1);

第一條SQL查詢僅僅是獲取張三的Person對象，第二條比較關鍵，它選取關系表`QSOptimize_person_visitation`中`person_id`為張三的行，然后和`city`表內聯(lián)（INNER JOIN 也叫等值連接）得到結果表。

+----+-----------+----------+-------------+-----------+
| id | firstname | lastname | hometown_id | living_id |
+----+-----------+----------+-------------+-----------+
| 1 | 張    | 三    |      3 |     1 |
+----+-----------+----------+-------------+-----------+
1 row in set (0.00 sec)
 
+-----------------------+----+-----------+-------------+
| _prefetch_related_val | id | name   | province_id |
+-----------------------+----+-----------+-------------+
|           1 | 1 | 武漢市  |      1 |
|           1 | 2 | 廣州市  |      2 |
|           1 | 3 | 十堰市  |      1 |
+-----------------------+----+-----------+-------------+
3 rows in set (0.00 sec)

顯然張三武漢、廣州、十堰都去過。

又或者，我們要獲得湖北的所有城市名，可以這樣：

>>> hb = Province.objects.prefetch_related('city_set').get(name__iexact=u"湖北省")
>>> for city in hb.city_set.all():
...  city.name
...

觸發(fā)的SQL查詢：

SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`name` LIKE '湖北省' ;
 
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
WHERE `QSOptimize_city`.`province_id` IN (1);

得到的表：

+----+-----------+
| id | name   |
+----+-----------+
| 1 | 湖北省  |
+----+-----------+
1 row in set (0.00 sec)
 
+----+-----------+-------------+
| id | name   | province_id |
+----+-----------+-------------+
| 1 | 武漢市  |      1 |
| 3 | 十堰市  |      1 |
+----+-----------+-------------+
2 rows in set (0.00 sec)

我們可以看見，prefetch使用的是 IN 語句實現(xiàn)的。這樣，在QuerySet中的對象數(shù)量過多的時候，根據(jù)數(shù)據(jù)庫特性的不同有可能造成性能問題。

使用方法
*lookups 參數(shù)

prefetch_related()在Django < 1.7 只有這一種用法。和select_related()一樣，prefetch_related()也支持深度查詢，例如要獲得所有姓張的人去過的?。?br />

>>> zhangs = Person.objects.prefetch_related('visitation__province').filter(firstname__iexact=u'張')
>>> for i in zhangs:
...  for city in i.visitation.all():
...   print city.province
...

觸發(fā)的SQL：

SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`,
`QSOptimize_person`.`lastname`, `QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`
FROM `QSOptimize_person`
WHERE `QSOptimize_person`.`firstname` LIKE '張' ;
 
SELECT (`QSOptimize_person_visitation`.`person_id`) AS `_prefetch_related_val`, `QSOptimize_city`.`id`,
`QSOptimize_city`.`name`, `QSOptimize_city`.`province_id` FROM `QSOptimize_city`
INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)
WHERE `QSOptimize_person_visitation`.`person_id` IN (1, 4);
 
SELECT `QSOptimize_province`.`id`, `QSOptimize_province`.`name`
FROM `QSOptimize_province`
WHERE `QSOptimize_province`.`id` IN (1, 2);

獲得的結果：

+----+-----------+----------+-------------+-----------+
| id | firstname | lastname | hometown_id | living_id |
+----+-----------+----------+-------------+-----------+
| 1 | 張    | 三    |      3 |     1 |
| 4 | 張    | 六    |      2 |     2 |
+----+-----------+----------+-------------+-----------+
2 rows in set (0.00 sec)
 
+-----------------------+----+-----------+-------------+
| _prefetch_related_val | id | name   | province_id |
+-----------------------+----+-----------+-------------+
|           1 | 1 | 武漢市  |      1 |
|           1 | 2 | 廣州市  |      2 |
|           4 | 2 | 廣州市  |      2 |
|           1 | 3 | 十堰市  |      1 |
+-----------------------+----+-----------+-------------+
4 rows in set (0.00 sec)
 
+----+-----------+
| id | name   |
+----+-----------+
| 1 | 湖北省  |
| 2 | 廣東省  |
+----+-----------+
2 rows in set (0.00 sec)

值得一提的是，鏈式prefetch_related會將這些查詢添加起來，就像1.7中的select_related那樣。

要注意的是，在使用QuerySet的時候，一旦在鏈式操作中改變了數(shù)據(jù)庫請求，之前用prefetch_related緩存的數(shù)據(jù)將會被忽略掉。這會導致Django重新請求數(shù)據(jù)庫來獲得相應的數(shù)據(jù)，從而造成性能問題。這里提到的改變數(shù)據(jù)庫請求指各種filter()、exclude()等等最終會改變SQL代碼的操作。而all()并不會改變最終的數(shù)據(jù)庫請求，因此是不會導致重新請求數(shù)據(jù)庫的。

舉個例子，要獲取所有人訪問過的城市中帶有“市”字的城市，這樣做會導致大量的SQL查詢：

plist = Person.objects.prefetch_related('visitation')
[p.visitation.filter(name__icontains=u"市") for p in plist]

因為數(shù)據(jù)庫中有4人，導致了2+4次SQL查詢：

SELECT `QSOptimize_person`.`id`, `QSOptimize_person`.`firstname`, `QSOptimize_person`.`lastname`,
`QSOptimize_person`.`hometown_id`, `QSOptimize_person`.`living_id`
FROM `QSOptimize_person`;
 
SELECT (`QSOptimize_person_visitation`.`person_id`) AS `_prefetch_related_val`, `QSOptimize_city`.`id`,
`QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)
WHERE `QSOptimize_person_visitation`.`person_id` IN (1, 2, 3, 4);
 
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)
WHERE(`QSOptimize_person_visitation`.`person_id` = 1 AND `QSOptimize_city`.`name` LIKE '%市%' );
 
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)
WHERE (`QSOptimize_person_visitation`.`person_id` = 2 AND `QSOptimize_city`.`name` LIKE '%市%' );
 
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)
WHERE (`QSOptimize_person_visitation`.`person_id` = 3 AND `QSOptimize_city`.`name` LIKE '%市%' );
 
SELECT `QSOptimize_city`.`id`, `QSOptimize_city`.`name`, `QSOptimize_city`.`province_id`
FROM `QSOptimize_city`
INNER JOIN `QSOptimize_person_visitation` ON (`QSOptimize_city`.`id` = `QSOptimize_person_visitation`.`city_id`)
WHERE (`QSOptimize_person_visitation`.`person_id` = 4 AND `QSOptimize_city`.`name` LIKE '%市%' );

詳細分析一下這些請求事件。

眾所周知，QuerySet是lazy的，要用的時候才會去訪問數(shù)據(jù)庫。運行到第二行Python代碼時，for循環(huán)將plist看做iterator，這會觸發(fā)數(shù)據(jù)庫查詢。最初的兩次SQL查詢就是prefetch_related導致的。

雖然已經(jīng)查詢結果中包含所有所需的city的信息，但因為在循環(huán)體中對Person.visitation進行了filter操作，這顯然改變了數(shù)據(jù)庫請求。因此這些操作會忽略掉之前緩存到的數(shù)據(jù)，重新進行SQL查詢。

但是如果有這樣的需求了應該怎么辦呢？在Django >= 1.7，可以通過下一節(jié)的Prefetch對象來實現(xiàn)，如果你的環(huán)境是Django < 1.7，可以在Python中完成這部分操作。

plist = Person.objects.prefetch_related('visitation')
[[city for city in p.visitation.all() if u"市" in city.name] for p in plist]

Prefetch 對象

在Django >= 1.7，可以用Prefetch對象來控制prefetch_related函數(shù)的行為。

注：由于我沒有安裝1.7版本的Django環(huán)境，本節(jié)內容是參考Django文檔寫的，沒有進行實際的測試。

Prefetch對象的特征：

一個Prefetch對象只能指定一項prefetch操作。
Prefetch對象對字段指定的方式和prefetch_related中的參數(shù)相同，都是通過雙下劃線連接的字段名完成的。
可以通過 queryset 參數(shù)手動指定prefetch使用的QuerySet。
可以通過 to_attr 參數(shù)指定prefetch到的屬性名。
Prefetch對象和字符串形式指定的lookups參數(shù)可以混用。

繼續(xù)上面的例子，獲取所有人訪問過的城市中帶有“武”字和“州”的城市：

wus = City.objects.filter(name__icontains = u"武")
zhous = City.objects.filter(name__icontains = u"州")
plist = Person.objects.prefetch_related(
  Prefetch('visitation', queryset = wus, to_attr = "wu_city"),
  Prefetch('visitation', queryset = zhous, to_attr = "zhou_city"),)
[p.wu_city for p in plist]
[p.zhou_city for p in plist]

注：這段代碼沒有在實際環(huán)境中測試過，若有不正確的地方請指正。

順帶一提，Prefetch對象和字符串參數(shù)可以混用。
None

可以通過傳入一個None來清空之前的prefetch_related。就像這樣：

>>> prefetch_cleared_qset = qset.prefetch_related(None)

小結

prefetch_related主要針一對多和多對多關系進行優(yōu)化。
prefetch_related通過分別獲取各個表的內容，然后用Python處理他們之間的關系來進行優(yōu)化。
可以通過可變長參數(shù)指定需要select_related的字段名。指定方式和特征與select_related是相同的。
在Django >= 1.7可以通過Prefetch對象來實現(xiàn)復雜查詢，但低版本的Django好像只能自己實現(xiàn)。
作為prefetch_related的參數(shù)，Prefetch對象和字符串可以混用。
prefetch_related的鏈式調用會將對應的prefetch添加進去，而非替換，似乎沒有基于不同版本上區(qū)別。
可以通過傳入None來清空之前的prefetch_related。

您可能感興趣的文章:

在Django中預防CSRF攻擊的操作
這篇文章主要介紹了在Django中預防CSRF攻擊的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-03-03
python使用Tkinter顯示網(wǎng)絡圖片的方法
這篇文章主要介紹了python使用Tkinter顯示網(wǎng)絡圖片的方法,涉及Python操作圖片的相關技巧,需要的朋友可以參考下
2015-04-04
TensorFlow Session會話控制&Variable變量詳解
今天小編就為大家分享一篇TensorFlow Session會話控制&Variable變量詳解，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-07-07
對python3標準庫httpclient的使用詳解
今天小編就為大家分享一篇對python3標準庫httpclient的使用詳解，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-12-12
探索?Python?Restful?接口測試的奧秘
掌握Python?Restful?接口測試,讓你的后端服務像流水一樣順暢,本指南將帶你輕松穿梭于斷言和請求之間,搞定所有測試難題,一起來看,讓代碼在你的指尖跳舞吧！
2023-12-12
Python中遍歷字典過程中更改元素導致異常的解決方法
這篇文章主要介紹了Python中遍歷字典過程中更改元素導致錯誤的解決方法,針對增刪元素后出現(xiàn)dictionary changed size during iteration的異常解決做出討論和解決,需要的朋友可以參考下
2016-05-05
使用setup.py安裝python包和卸載python包的方法
這篇文章主要介紹了使用setup.py安裝python包和卸載python包的方法，大家參考使用吧
2013-11-11
Python入門教程(二十七)Python的日期
Python 中的日期不是其自身的數(shù)據(jù)類型，導入名為 datetime 的模塊，把日期視作日期對象進行處理,有許多方法可以返回有關日期對象的信息,需要的朋友可以參考下
2023-04-04
Python實現(xiàn)字典去除重復的方法示例
這篇文章主要介紹了Python實現(xiàn)字典去除重復的方法,涉及Python字典遍歷、文件讀取、去除重復等相關操作技巧,需要的朋友可以參考下
2017-07-07
python實現(xiàn)雙人版坦克大戰(zhàn)游戲
這篇文章主要為大家詳細介紹了python實現(xiàn)雙人版坦克大戰(zhàn)游戲，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2021-12-12