快捷導(dǎo)航

舉例講解Python中的迭代器、生成器與列表解析用法

更新時(shí)間：2016年03月20日 23:51:13 作者：Flyaway

這篇文章主要介紹了Python中的迭代器、生成器與列表解析用法,還對(duì)Python3.x版本中的一些改變作出了提示,需要的朋友可以參考下

迭代器:初探

上一章曾經(jīng)提到過，其實(shí)for循環(huán)是可用于任何可迭代的對(duì)象上的。實(shí)際上，對(duì)Python中所有會(huì)從左至右掃描對(duì)象的迭代工具而言都是如此，這些迭代工具包括了for循環(huán)、列表解析、in成員關(guān)系測(cè)試以及map內(nèi)置函數(shù)等。

“可迭代對(duì)象”的概念在Python中是相當(dāng)新穎的，基本這就是序列觀念的通用化:如果對(duì)象時(shí)實(shí)際保存的序列，或者可以再迭代工具環(huán)境中一次產(chǎn)生一個(gè)結(jié)果的對(duì)象,那就看做是可迭代的。

>>文件迭代器
作為內(nèi)置數(shù)據(jù)類型的文件也是可迭代的，它有一個(gè)名為__next__的方法，每次調(diào)用時(shí)，就會(huì)返回文件中的下一行。當(dāng)?shù)竭_(dá)文件末尾時(shí)，__next__會(huì)引發(fā)內(nèi)置的StopIteration異常，而不是返回空字符串。

這個(gè)接口就是Python中所謂的迭代協(xié)議:有__next__方法的對(duì)象會(huì)前進(jìn)到下一個(gè)結(jié)果，而在一系列結(jié)果的末尾時(shí)，則會(huì)引發(fā)StopIteration。任何這類對(duì)象都認(rèn)為是可迭代的。任何這類對(duì)象也能以for循環(huán)或其他迭代工具遍歷，因?yàn)樗械ぞ邇?nèi)部工作起來都是在每次迭代中調(diào)用__next__，并且捕捉StopIteratin異常來確定何時(shí)離開。

for line in open('script.py'):
 print(line.upper(),end='')

上面的代碼就是文件迭代的一個(gè)例子，并且這種用法是最高效的文件讀取方法，主要有三個(gè)優(yōu)點(diǎn):這是最簡(jiǎn)單的寫法，運(yùn)行快，并且從內(nèi)存使用情況來說也是最好的。

替代的寫法是:

for line in open('script.py').readlines():
 print(line.upper(),end='')

這種調(diào)用方法會(huì)把文件一次性讀到內(nèi)存中，如果文件太大，那么內(nèi)存會(huì)被消耗光的。

>>手動(dòng)迭代:iter和next
為了支持手動(dòng)迭代代碼(用較少的錄入)，Python3.0還提供了一個(gè)內(nèi)置函數(shù)next，它會(huì)自動(dòng)調(diào)用一個(gè)對(duì)象的__next__方法。給定一個(gè)對(duì)象X，調(diào)用next(X)等同于X.__next__()，但前者簡(jiǎn)單很多。

從技術(shù)角度來講，迭代協(xié)議還有一點(diǎn)值得注意。當(dāng)for循環(huán)開始時(shí)，會(huì)通過它傳給iter內(nèi)置函數(shù)，以便從可迭代對(duì)象中獲得一個(gè)迭代器，返回的對(duì)象含有需要的next方法。調(diào)用iter的步驟對(duì)于文件來說不是必須的，因?yàn)槲募?duì)象就是自己的迭代器，但是對(duì)于其他的一些內(nèi)置數(shù)據(jù)類型來說，就不一定了。

列表以及很多其他的內(nèi)置對(duì)象，不是自身的迭代器，因?yàn)樗鼈冎С侄啻未蜷_迭代器。對(duì)這樣的對(duì)象，我們必須調(diào)用iter來啟動(dòng)迭代:

L=[1,2,3]
iter(L) is L #return false
L.__next__() #會(huì)報(bào)錯(cuò)

I = iter(L)
I.__next__()
I.__next__()

雖然Python迭代工具自動(dòng)調(diào)用這些(iter,__next__)函數(shù)，我們也可以使用它們來手動(dòng)地應(yīng)用迭代協(xié)議。

列表解析:初探

>>列表解析基礎(chǔ)知識(shí)

L=[1,2,3,4,5]
L = [x+10 for x in L]

列表解析寫在一個(gè)方括號(hào)中，因?yàn)樗鼈冏罱K是構(gòu)建一個(gè)新的列表的一種方式。它們以我們所組成的一個(gè)任意的表達(dá)式開始，該表達(dá)式使用我們所組成的一個(gè)循環(huán)變量(x+10)。這后面跟著我們現(xiàn)在應(yīng)該看作是一個(gè)for循環(huán)頭部的部分，它申明了循環(huán)變量，以及一個(gè)可迭代對(duì)象(for x in L)

要運(yùn)行該表達(dá)式，Python在解釋器內(nèi)部執(zhí)行一個(gè)遍歷L的迭代，按照順序把x賦給每個(gè)元素，并且收集對(duì)各元素運(yùn)行左邊的表達(dá)式的結(jié)果。我們得到的結(jié)果列表就是列表解析所表達(dá)的內(nèi)容——針對(duì)L中的每個(gè)x,包含了x+10的一個(gè)新列表。

其實(shí)列表解析式并不是必須的，因?yàn)樗芡瓿傻墓ぷ鞫寄軌蛲ㄟ^for循環(huán)完成，但是列表解析式比手動(dòng)的for循環(huán)語句運(yùn)行得更快(往往速度快一倍)，因?yàn)樗鼈兊牡诮忉屍鲀?nèi)部是以C語言的速度執(zhí)行的，而不是以手動(dòng)的Python代碼執(zhí)行的，特別是對(duì)于較大的數(shù)據(jù)集合，這是使用列表解析的一個(gè)主要的性能優(yōu)點(diǎn)。

當(dāng)我們考慮在一個(gè)序列中的每個(gè)項(xiàng)上執(zhí)行一個(gè)操作時(shí)，都可以考慮使用列表解析。

>>擴(kuò)展的列表解析語法
實(shí)際上，列表解析可以有更高級(jí)的應(yīng)用。作為一個(gè)特別有用的擴(kuò)展，表達(dá)式中嵌套的for循環(huán)可以有一個(gè)相關(guān)的if子句，來過濾那些測(cè)試不為真的結(jié)果項(xiàng)。

lines = [line.rstrip() for line in open('script.py') if line[0]='p']

這條if子句檢查從文件讀取的每一行，看它的第一個(gè)字符是否是p；如果不是，從結(jié)果列表中省略改行。

事實(shí)上，如果我們?cè)敢獾脑挘斜斫馕隹梢宰兊酶訌?fù)雜——它們的完整語法允許任意數(shù)目的for子句，每個(gè)子句有一個(gè)可選的相關(guān)的if子句。

Python3.0中的新的可迭代對(duì)象

Pyton3.0中的一個(gè)基本的改變是，它比Python2.x更強(qiáng)調(diào)迭代。除了與文件和字典這樣的內(nèi)置類型相關(guān)的迭代，字典方法keys、values和items都在Python3.0中返回可迭代對(duì)象。返回一個(gè)可迭代對(duì)象而不是返回一個(gè)結(jié)果列表的好處在于節(jié)省了內(nèi)存的空間。

>>多個(gè)迭代器VS單個(gè)迭代器
多個(gè)迭代器:在它們的結(jié)果中能保持不同位置的多個(gè)迭代器
單個(gè)迭代器:只能保持一個(gè)迭代器，在遍歷其結(jié)果之后，它們就用盡了。
通常通過針對(duì)iter調(diào)用返回一個(gè)新的對(duì)象，來支持多個(gè)迭代器；單個(gè)迭代器一般意味著一個(gè)對(duì)象返回其自身。

>>字典視圖迭代器
在Python3.0中，字典的keys、values和items方法返回可迭代的視圖對(duì)象，它們一次產(chǎn)生一個(gè)結(jié)果項(xiàng)，而不是在內(nèi)存中一次產(chǎn)生全部結(jié)果列表。視圖項(xiàng)保持和字典中的那些項(xiàng)相同的物理順序，并且反映對(duì)底層的字典做出的修改。

和所有迭代器一樣，我們總可以通過把一個(gè)Python3.0字典視圖傳遞到list內(nèi)置函數(shù)中，從而強(qiáng)制構(gòu)建一個(gè)真正的列表。然而，這通常不是必須的。

此外，Python3.0字典仍然有自己的迭代器，它返回連續(xù)的鍵。因此，無需直接在此環(huán)境中調(diào)用keys:

for key in D:print(key,end='')

>>列表解析與map
列表解析在一個(gè)序列上的值應(yīng)用一個(gè)任意表達(dá)式，將其結(jié)果搜集到一個(gè)新的列表中并返回。從語法上說，列表解析是由方括號(hào)封裝起來的(為了提醒你它們構(gòu)造了一個(gè)列表)。它們的簡(jiǎn)單形式是在方括號(hào)中編寫一個(gè)表達(dá)式，Python之后將這個(gè)表達(dá)式的應(yīng)用循環(huán)中每次迭代的結(jié)果搜集起來。例如，假如我們希望搜集字符串中的所有字符的ASCII碼，可以這樣做:

#循環(huán)的方法
res=[]
for x in 'spam':
 res.append(ord(x))

#map函數(shù)的方法
res=list(map(ord,'spam'))

#列表解析
res=[ord(x) for x in 'spam']

>>增加測(cè)試和嵌套循環(huán)
其實(shí)，列表解析還要比上面說的通用的多，我們可以在for之后編寫一個(gè)if分支，用來增加選擇邏輯。

#列表解析

[x ** 2 for x in range(10) if x % 2 == 0]


#map
list(map((lambda x:x**2),filter((lambda x: x % 2==0),range(10))))

上述的兩行代碼都是搜集了0~9中的偶數(shù)的平方和，可以很明顯的看到，完成同樣的功能，列表解析的語句簡(jiǎn)單地多。

實(shí)際上，列表解析還能夠更加通用。你可以在一個(gè)列表解析中編寫任意數(shù)量的嵌套的for循環(huán)，并且每一個(gè)都有可選的關(guān)聯(lián)的if測(cè)試。通用結(jié)構(gòu)如下所示:

expression for target1 in iterable1 [if comdition1]
      for target2 in iterable2 [if condition2] ...
      for targetN in iterableN [if conditionN]

當(dāng)for分句嵌套在列表解析中時(shí)，它們工作起來就像等效的嵌套的for循環(huán)語句。例如，如下的代碼:

res=[x+y for x in [0,1,2] for y in [100,200,300]]

與下面如此冗長(zhǎng)的代碼有相同的效果:

res=[]
for x in [0,1,2]:
 for y in [100,200,30]:
  res.append(x+y)

>>列表解析和矩陣
使用Python編寫矩陣的一個(gè)基本的方法就是使用嵌套的列表結(jié)構(gòu)，例如，下面的代碼定義了兩個(gè)3x3的矩陣:

M=[[1,2,3],
  [4,5,6],
  [7,8,9]]

N=[[2,2,2],
  [3,3,3],
  [4,4,4]]

列表解析也是處理這樣結(jié)構(gòu)的強(qiáng)大工具，它們能夠自動(dòng)掃描行和列。

取出第二列的所有元素:

[row[1] for row in M]   #[2,5,8]

[M[row][1] for row in (0,1,2)]  #[2,5,8]

取出對(duì)角線上的元素:

[M[i][i] for i in range(len(M))] #[1,5,9]

混合多個(gè)矩陣，下面的代碼創(chuàng)建了一個(gè)單層的列表，其中包含了矩陣對(duì)元素的乘積。

復(fù)制代碼代碼如下:

[M[row][col] * N[row][col] for row in range(3) for col in range(3)] #[2,4,6,12,15,18,28,32,36]

下面的代碼再復(fù)雜一點(diǎn)，構(gòu)造一個(gè)嵌套的列表，其中的值與上面的一樣:

復(fù)制代碼代碼如下:

[[M[row][col] * N[row][col] for col in range(3)] for row in range(3)] #[[2,4,6],[12,15,18],[28,32,36]]

上面的最后一個(gè)比較難于理解，它等同于如下基于語句的代碼:

res=[]
for row in range(3):
 tmp=[]
 for col in range(3):
  tmp.append(M[row][col]*N[row][col])
 res.append(tmp)

>>理解列表解析
基于對(duì)運(yùn)行在當(dāng)前Python版本下的測(cè)試，map調(diào)用比等效的for循環(huán)要快兩倍，而列表解析往往比map調(diào)用要稍快一些。速度上的差距來自底層實(shí)現(xiàn)，map和列表解析是在解釋器中以C語言的速度來運(yùn)行的，比Python的for循環(huán)在PVM中步進(jìn)要快得多。

重訪迭代器:生成器

如今的Python對(duì)延遲提供更多的支持——它提供了工具在需要的時(shí)候才產(chǎn)生結(jié)果，而不是立即產(chǎn)生結(jié)果。特別地，有兩種語言結(jié)構(gòu)盡可能地拖延結(jié)果創(chuàng)建。

生成器函數(shù):編寫為常規(guī)的def語句，但是是使用yield語句一次返回一個(gè)結(jié)果，在每個(gè)結(jié)果之間掛起和繼續(xù)它們的狀態(tài)。
生成器表達(dá)式:生成器表達(dá)式類似于上一小節(jié)的列表解析，但是，它們返回按需產(chǎn)生結(jié)果的一個(gè)對(duì)象，而不是構(gòu)建一個(gè)結(jié)果列表。
由于上面二者都不會(huì)一次性構(gòu)建一個(gè)列表，它們節(jié)省了內(nèi)存空間，并且允許計(jì)算時(shí)間分散到各個(gè)結(jié)果請(qǐng)求。

>>生成器函數(shù):yield VS return
之前我們寫的函數(shù)都是接受輸入?yún)?shù)并立即返回單個(gè)結(jié)果的常規(guī)函數(shù)，然而，也有肯能來編寫可以送回一個(gè)值并隨后從其退出的地方繼續(xù)的函數(shù)。這樣的函數(shù)叫做生成器函數(shù)，因?yàn)樗鼈冸S著時(shí)間產(chǎn)生值的一個(gè)序列。

一般來說，生成器函數(shù)和常規(guī)函數(shù)一樣，并且，實(shí)際上也是用常規(guī)的def語句編寫的。然后，當(dāng)創(chuàng)建時(shí)，它們自動(dòng)實(shí)現(xiàn)迭代協(xié)議，以便可以出現(xiàn)在迭代背景中。

狀態(tài)掛起

和返回一個(gè)值并退出的函數(shù)不同，生成器函數(shù)自動(dòng)在生成值的時(shí)刻掛起并繼續(xù)函數(shù)的執(zhí)行。因此，它們對(duì)于提前計(jì)算整個(gè)一系列值以及在類中手動(dòng)保存和恢復(fù)狀態(tài)都很有用。由于生成器函數(shù)在掛起時(shí)保存的狀態(tài)包含了它們的整個(gè)本地作用域，當(dāng)函數(shù)恢復(fù)時(shí)，它們的本地變量保持了信息并且使其可用。

生成器函和常規(guī)函數(shù)之間的主要不同之處在于，生成器yield一個(gè)值，而不是return一個(gè)值。yield語句掛起該函數(shù)并向調(diào)用者發(fā)送一個(gè)值，但是，保留足夠的狀態(tài)以使得函數(shù)從它離開的地方繼續(xù)。當(dāng)繼續(xù)時(shí)，函數(shù)在上一個(gè)yield返回立即繼續(xù)執(zhí)行。從函數(shù)角度來看，這允許其代碼隨著時(shí)間產(chǎn)生一系列的值，而不是一次計(jì)算它們并在諸如列表的內(nèi)容中送回它們。

迭代協(xié)議整合

可迭代對(duì)象定義了一個(gè)__next__方法，它要么返回迭代中的下一項(xiàng)，要么引發(fā)一個(gè)特殊的StopIteration異常來終止迭代。一個(gè)對(duì)象的迭代器用iter內(nèi)置函數(shù)接受。

如果支持該協(xié)議的話，Python的for循環(huán)以及其他的迭代技術(shù)，使用這種迭代協(xié)議來便利一個(gè)序列或值生成器；如果不支持，跌打返回去重復(fù)索引序列。

要支持這一協(xié)議，函數(shù)包含一條yield語句，該語句特別編譯為生成器。當(dāng)調(diào)用時(shí)，它們返回一個(gè)迭代器對(duì)象，該對(duì)象支持用一個(gè)名為__next__的自動(dòng)創(chuàng)建的方法來繼續(xù)執(zhí)行的接口。生成器函數(shù)也可能有一條return語句，總是在def語句塊的末尾，直接終止值的生成。

生成器函數(shù)應(yīng)用

def gensquares(N):
 for i in range(N):
  yield i ** 2

這個(gè)函數(shù)在每次循環(huán)時(shí)都會(huì)產(chǎn)生一個(gè)值，之后將其返回給它的調(diào)用者。當(dāng)它被暫定后，它的上一個(gè)狀態(tài)保存了下來并且在yield語句之后把控制器馬上回收。它允許函數(shù)避免臨時(shí)再做所有的工作，當(dāng)結(jié)果的列表很大或者在處理每一個(gè)結(jié)果都需要很多時(shí)間時(shí)，這一點(diǎn)尤其重要。生成器將在loop迭代中處理一系列值的時(shí)間分布開來。

擴(kuò)展生成器函數(shù)協(xié)議:send和next 在Python2.5中，生成器函數(shù)協(xié)議中增加了一個(gè)send方法。send方法生成一系列結(jié)果的下一個(gè)元素，這一點(diǎn)像__next__方法一樣，但是它提供了一種調(diào)用者與生成器之間進(jìn)行通信的方法，從而能夠影響它的操作。

def gen():
 for i in range(10):
  X =yield i
  print(X)

G = gen()
next(G)     #0
G.send(77)    #77 1
G.send(88)    #88 2
next(G)     #None 3

上面的代碼比較難于理解，而且書上的翻譯比較劣質(zhì)，沒看懂。在網(wǎng)上查了一些資料，結(jié)合自己的理解，上述代碼的運(yùn)行過程應(yīng)該是這樣的:生成了一個(gè)函數(shù)對(duì)象，賦值給了G，然后調(diào)用了next() 函數(shù)，生成了生成器的第一個(gè)值0，所以返回值是0。此時(shí)函數(shù)運(yùn)行到y(tǒng)ield語句，碰到y(tǒng)ield語句后立即掛起函數(shù)，保存狀態(tài)，等待下一次迭代。程序中之后又調(diào)用了send()方法，將77傳遞給了yield語句，yield語句將send()傳遞過來的值(此處是77)賦值給X，然后打印出來。然后函數(shù)繼續(xù)運(yùn)行，直到再次碰到y(tǒng)ield，此時(shí)是第二次碰到y(tǒng)ield，所以返回了1，接著函數(shù)又被掛起，等待下一次迭代。接著又調(diào)用了send()，同上次調(diào)用一樣，將傳進(jìn)的參數(shù)(此處是88)作為yield的返回值賦值給X，然后打印，接著繼續(xù)運(yùn)行函數(shù)，直到再次碰到y(tǒng)ield，此時(shí)是第三次，因此輸出2。最后又再次調(diào)用了next()函數(shù)，其實(shí)'next()'函數(shù)就是傳遞了一個(gè)None,因此，我們得到的結(jié)果是None和3。

此處需要注意的是，其實(shí)next()和send(None)是等價(jià)的。通過send()方法，我們就能夠和生成器實(shí)現(xiàn)通信。

>>生成器表達(dá)式：迭代器遇到列表解析
在最新版的Python中，迭代器和列表解析的概念形成了這種語言的一個(gè)新特性——生成器表達(dá)式。從語法上講，生成器表達(dá)式就像一般的列表解析一樣，但是它們是擴(kuò)在圓括號(hào)中而不是方括號(hào)中的。

[x ** 2 for x in range(4)]  #List comprehension:build a list
(x ** 2 for x in range(4))  #Genterator expression:make an iterable

從執(zhí)行過程上來講，生成器表達(dá)式很不相同:不是在內(nèi)存中構(gòu)建結(jié)果，而是返回一個(gè)生成器對(duì)象，這個(gè)對(duì)象將會(huì)支持迭代協(xié)議。

生成器表達(dá)式大體上可以認(rèn)為是對(duì)內(nèi)存空間的優(yōu)化，他們不需要像方括號(hào)的列表解析一樣，一次構(gòu)造出整個(gè)結(jié)果列表。它們?cè)趯?shí)際中運(yùn)行起來可能稍慢一些，所以它們可能只對(duì)于非常龐大的結(jié)果集合的運(yùn)算來說是最優(yōu)的選擇。

>>生成器函數(shù)VS生成器表達(dá)式
生成器函數(shù)和生成器表達(dá)式自身都是迭代器，并由此只支持一次活躍迭代，我們無法有在結(jié)果集中位于不同位置的多個(gè)迭代器。

Python3.0解析語法概括

我們已經(jīng)在本章中關(guān)注過列表解析和生成器，但是，別忘了，還有兩種在Python3.0中可用的解析表達(dá)式形式:集合解析和字典解析。

[x*x for x in range(10)]   #List comprehension:build list
(x*x for x in range(10))   #Generator expression:produces items
{x*x for x in range(10)}   #Set comprehension:new in 3.0
{x:x*x for x in range(10)  #Directionary comprehension:new in 3.0

需要注意的是，上面最后兩種表達(dá)方式都是一次性構(gòu)建所有對(duì)象的，它們沒有根據(jù)需要產(chǎn)生結(jié)果的概念。

總結(jié)

列表解析、集合解析、字典解析都是一次性構(gòu)建對(duì)象的，直接返回的。
生成器函數(shù)和生成器表達(dá)式不是在內(nèi)存中構(gòu)建結(jié)果的，它們是返回一個(gè)生成器對(duì)象，這個(gè)對(duì)象支持迭代協(xié)議，根據(jù)調(diào)用者需要產(chǎn)生結(jié)果。
集合解析、字典解析都支持嵌套相關(guān)的if子句從結(jié)果中過濾元素。
函數(shù)陷阱

>>本地變量是靜態(tài)檢測(cè)的
Python定義的在一個(gè)函數(shù)中進(jìn)行分配的變量名時(shí)默認(rèn)為本地變量的，它們存在于函數(shù)的作用域并只在函數(shù)運(yùn)行時(shí)存在。Python靜態(tài)檢測(cè)Python的本地變量，當(dāng)編譯def代碼時(shí)，不是通過發(fā)現(xiàn)賦值語句在運(yùn)行時(shí)進(jìn)行檢測(cè)的。被賦值的變量名在函數(shù)內(nèi)部是當(dāng)做本地變量來對(duì)待的，而不是僅僅在賦值以后的語句才被當(dāng)做是本地變量。

>>沒有return語句的函數(shù)
在Python函數(shù)中，return(以及yield)語句是可選的。從技術(shù)上說，所有的函數(shù)都會(huì)返回了一個(gè)值，如果沒有提供return語句，函數(shù)將自動(dòng)返回None對(duì)象。

您可能感興趣的文章: