欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python 正則表達(dá)式 反斜杠(/)的麻煩和陷阱

 更新時(shí)間:2009年08月23日 19:57:38   作者:  
這里是一點(diǎn)小心得。 由于正則表達(dá)式使用反斜杠來轉(zhuǎn)義特殊字符,而python自身處理字符串時(shí),反斜杠也是用于轉(zhuǎn)義字符,這樣就產(chǎn)生了一個(gè)雙重轉(zhuǎn)換的問題
要匹配字符串中1個(gè)反斜杠應(yīng)該怎么寫正則表達(dá)式?"\\",這樣行嗎?試試就知道了,re模塊拋異常了,因?yàn)?\\"就是一個(gè)反斜杠,對(duì)于正則表達(dá)式解析器來說,是一個(gè)轉(zhuǎn)義字符,但是后面啥也沒有,自然就報(bào)錯(cuò)了,"\\\"三個(gè)肯定是不行的,試試四個(gè)"\\\\",完美匹配。
復(fù)制代碼 代碼如下:

import re
re_str_patt = "\\\\"
reObj = re.compile(re_str_patt)
str_test = "abc\\cd\\hh"
print reObj.findall(str_test)


輸出:['\\', '\\']

這里要這么理解,首先第一重轉(zhuǎn)換是字符串自身的轉(zhuǎn)義,那么"\\\\",實(shí)際上就是表示兩個(gè)反斜杠(兩個(gè)字符),然后傳入正則表達(dá)式解析器,因?yàn)榉葱备芤廊皇寝D(zhuǎn)義字符,那么進(jìn)行第二重轉(zhuǎn)換,兩個(gè)反斜杠就代表一個(gè)反斜杠,所以就能和一個(gè)反斜杠進(jìn)行匹配了,那么匹配連續(xù)的兩個(gè)反斜杠,寫正則表達(dá)式時(shí)就要寫8次"\"了,相當(dāng)壯觀,要匹配/d+(這個(gè)在正則表達(dá)式里面表示連續(xù)1一個(gè)以上的數(shù)字字符)這個(gè)字符串怎么寫呢?
復(fù)制代碼 代碼如下:

import re
re_str_patt = "\\\\d\\+"
print re_str_patt
reObj = re.compile(re_str_patt)
print reObj.findall("\\d+")
寫成re_str_patt = "\\\\d\+"也行,因?yàn)閈+對(duì)于字符串來說,沒有轉(zhuǎn)義意義,所以就當(dāng)成一個(gè)反斜杠了。

在python中寫正則表達(dá)式時(shí)用得最多的是raw字符串,原生字符串,什么意思?就是只有一重轉(zhuǎn)換了,沒有字符串轉(zhuǎn)換了,只在正則表達(dá)式內(nèi)部進(jìn)行轉(zhuǎn)換了,這樣匹配一個(gè)反斜杠的正則表達(dá)式可以這樣寫,re_str_patt = r"\\",有人會(huì)想,以后寫windows的文件路徑什么的方便了,呵呵直接 path = r"c:\myforder\xx" 搞定,是的,這句沒有問題,但是如果你寫成 path = r"c:\myforder\xx\",直接報(bào)錯(cuò)了,為什么?因?yàn)榉葱备茈m然不作為轉(zhuǎn)義字符了,但是還是對(duì)它后面的引號(hào)(包括單引號(hào))有影響,使這個(gè)引號(hào)不被視為字符串的終止,以為它后面還有字符,但是實(shí)際沒有,因此會(huì)報(bào)錯(cuò)。其實(shí)可以反過來想raw字符串里面要表示引號(hào)怎么辦呢?,可以發(fā)現(xiàn) path = r"\\123\"xxx" 是可以的,那用raw字符串豈不是有局限性?不過raw在設(shè)計(jì)之初就是用來支持正則表達(dá)式的,而在正則里面反斜杠是轉(zhuǎn)義字符,所以不可能出現(xiàn)在字符串的末尾的,所以建議不要圖方便在其他的地方使用raw。

相關(guān)文章

最新評(píng)論