Python的re模塊正則表達(dá)式操作
這個(gè)模塊提供了與 Perl 相似l的正則表達(dá)式匹配操作。Unicode字符串也同樣適用。
正則表達(dá)式使用反斜杠" \ "來(lái)代表特殊形式或用作轉(zhuǎn)義字符,這里跟Python的語(yǔ)法沖突,因此,Python用" \\\\ "表示正則表達(dá)式中的" \ ",因?yàn)檎齽t表達(dá)式中如果要匹配" \ ",需要用\來(lái)轉(zhuǎn)義,變成" \\ ",而Python語(yǔ)法中又需要對(duì)字符串中每一個(gè)\進(jìn)行轉(zhuǎn)義,所以就變成了" \\\\ "。
上面的寫(xiě)法是不是覺(jué)得很麻煩,為了使正則表達(dá)式具有更好的可讀性,Python特別設(shè)計(jì)了原始字符串(raw string),需要提醒你的是,在寫(xiě)文件路徑的時(shí)候就不要使用raw string了,這里存在陷阱。raw string就是用'r'作為字符串的前綴,如 r"\n":表示兩個(gè)字符"\"和"n",而不是換行符了。Python中寫(xiě)正則表達(dá)式時(shí)推薦使用這種形式。
絕大多數(shù)正則表達(dá)式操作與 模塊級(jí)函數(shù)或RegexObject方法 一樣都能達(dá)到同樣的目的。而且不需要你一開(kāi)始就編譯正則表達(dá)式對(duì)象,但是不能使用一些實(shí)用的微調(diào)參數(shù)。
1.正則表達(dá)式語(yǔ)法
為了節(jié)省篇幅,這里不再敘述了。
2.martch和search的區(qū)別
Python提供了兩種不同的原始操作:match和search。match是從字符串的起點(diǎn)開(kāi)始做匹配,而search(perl默認(rèn))是從字符串做任意匹配。
注意:當(dāng)正則表達(dá)式是' ^ '開(kāi)頭時(shí),match與search是相同的。match只有當(dāng)且僅當(dāng)被匹配的字符串開(kāi)頭就能匹配 或 從pos參數(shù)的位置開(kāi)始就能匹配 時(shí)才會(huì)成功。如下:
>>> import re
>>> re.match("c", "abcdef")
>>> re.search("c","abcdef")
<_sre.SRE_Match object at 0x00A9A988>
>>> re.match("c", "cabcdef")
<_sre.SRE_Match object at 0x00A9AB80>
>>> re.search("c","cabcdef")
<_sre.SRE_Match object at 0x00AF1720>
>>> patterm = re.compile("c")
>>> patterm.match("abcdef")
>>> patterm.match("abcdef",1)
>>> patterm.match("abcdef",2)
<_sre.SRE_Match object at 0x00A9AB80>
3.模塊內(nèi)容
re.compile(pattern, flags=0)
編譯正則表達(dá)式,返回RegexObject對(duì)象,然后可以通過(guò)RegexObject對(duì)象調(diào)用match()和search()方法。
prog = re.compile(pattern)
result = prog.match(string)
跟
result = re.match(pattern, string)
是等價(jià)的。
第一種方式能實(shí)現(xiàn)正則表達(dá)式的重用。
re.search(pattern, string, flags=0)
在字符串中查找,是否能匹配正則表達(dá)式。返回_sre.SRE_Match對(duì)象,如果不能匹配返回None。
re.match(pattern, string, flags=0)
字符串的開(kāi)頭是否能匹配正則表達(dá)式。返回_sre.SRE_Match對(duì)象,如果不能匹配返回None。
re.split(pattern, string, maxsplit=0)
通過(guò)正則表達(dá)式將字符串分離。如果用括號(hào)將正則表達(dá)式括起來(lái),那么匹配的字符串也會(huì)被列入到list中返回。maxsplit是分離的次數(shù),maxsplit=1分離一次,默認(rèn)為0,不限制次數(shù)。
>>> re.split('\W+', 'Words, words, words.')
['Words', 'words', 'words', '']
>>> re.split('(\W+)', 'Words, words, words.')
['Words', ', ', 'words', ', ', 'words', '.', '']
>>> re.split('\W+', 'Words, words, words.', 1)
['Words', 'words, words.']
>>> re.split('[a-f]+', '0a3B9', flags=re.IGNORECASE)
注意:我使用的Python是2.6,查看源代碼發(fā)現(xiàn)split()并沒(méi)有flags的參數(shù),2.7才增加。這種問(wèn)題我發(fā)現(xiàn)不止一次了,官方的文檔 跟 源碼不一致的現(xiàn)象,如果發(fā)現(xiàn)異常,應(yīng)該去源碼中找找原因。
如果在字符串的開(kāi)始或結(jié)尾就匹配,返回的list將會(huì)以空串開(kāi)始或結(jié)尾。
>>> re.split('(\W+)', '...words, words...')
['', '...', 'words', ', ', 'words', '...', '']
如果字符串不能匹配,將會(huì)返回整個(gè)字符串的list。
>>> re.split("a","bbb")
['bbb']
re.findall(pattern, string, flags=0)
找到 RE 匹配的所有子串,并把它們作為一個(gè)列表返回。這個(gè)匹配是從左到右有序地返回。如果無(wú)匹配,返回空列表。
>>> re.findall("a","bcdef")
[]
>>> re.findall(r"\d+","12a32bc43jf3")
['12', '32', '43', '3']
re.finditer(pattern, string, flags=0)
找到 RE 匹配的所有子串,并把它們作為一個(gè)迭代器返回。這個(gè)匹配是從左到右有序地返回。如果無(wú)匹配,返回空列表。
>>> it = re.finditer(r"\d+","12a32bc43jf3")
>>> for match in it:
print match.group()
re.sub(pattern, repl, string, count=0, flags=0)
找到 RE 匹配的所有子串,并將其用一個(gè)不同的字符串替換??蛇x參數(shù) count 是模式匹配後替換的最大次數(shù);count 必須是非負(fù)整數(shù)。缺省值是 0 表示替換所有的匹配。如果無(wú)匹配,字符串將會(huì)無(wú)改變地返回。
re.subn(pattern, repl, string, count=0, flags=0)
與re.sub方法作用一樣,但返回的是包含新字符串和替換執(zhí)行次數(shù)的兩元組。
re.escape(string)
對(duì)字符串中的非字母數(shù)字進(jìn)行轉(zhuǎn)義
re.purge()
清空緩存中的正則表達(dá)式
4.正則表達(dá)式對(duì)象
re.RegexObject
re.compile()返回RegexObject對(duì)象
re.MatchObject
group()返回被 RE 匹配的字符串
start()返回匹配開(kāi)始的位置
end()返回匹配結(jié)束的位置
span()返回一個(gè)元組包含匹配 (開(kāi)始,結(jié)束) 的位置
5.編譯標(biāo)志
編譯標(biāo)志讓你可以修改正則表達(dá)式的一些運(yùn)行方式。在 re 模塊中標(biāo)志可以使用兩個(gè)名字,一個(gè)是全名如 IGNORECASE,一個(gè)是縮寫(xiě),一字母形式如 I。(如果你熟悉 Perl 的模式修改,一字母形式使用同樣的字母;例如 re.VERBOSE的縮寫(xiě)形式是 re.X。)多個(gè)標(biāo)志可以通過(guò)按位 OR-ing 它們來(lái)指定。如 re.I | re.M 被設(shè)置成 I 和 M 標(biāo)志:
I
IGNORECASE
使匹配對(duì)大小寫(xiě)不敏感;字符類(lèi)和字符串匹配字母時(shí)忽略大小寫(xiě)。舉個(gè)例子,[A-Z]也可以匹配小寫(xiě)字母,Spam 可以匹配 "Spam", "spam", 或 "spAM"。這個(gè)小寫(xiě)字母并不考慮當(dāng)前位置。
L
LOCALE
影響 "w, "W, "b, 和 "B,這取決于當(dāng)前的本地化設(shè)置。
locales 是 C 語(yǔ)言庫(kù)中的一項(xiàng)功能,是用來(lái)為需要考慮不同語(yǔ)言的編程提供幫助的。舉個(gè)例子,如果你正在處理法文文本,你想用 "w+ 來(lái)匹配文字,但 "w 只匹配字符類(lèi) [A-Za-z];它并不能匹配 "é" 或 "?"。如果你的系統(tǒng)配置適當(dāng)且本地化設(shè)置為法語(yǔ),那么內(nèi)部的 C 函數(shù)將告訴程序 "é" 也應(yīng)該被認(rèn)為是一個(gè)字母。當(dāng)在編譯正則表達(dá)式時(shí)使用 LOCALE 標(biāo)志會(huì)得到用這些 C 函數(shù)來(lái)處理 "w 後的編譯對(duì)象;這會(huì)更慢,但也會(huì)象你希望的那樣可以用 "w+ 來(lái)匹配法文文本。
M
MULTILINE
(此時(shí) ^ 和 $ 不會(huì)被解釋; 它們將在 4.1 節(jié)被介紹.)
使用 "^" 只匹配字符串的開(kāi)始,而 $ 則只匹配字符串的結(jié)尾和直接在換行前(如果有的話(huà))的字符串結(jié)尾。當(dāng)本標(biāo)志指定後, "^" 匹配字符串的開(kāi)始和字符串中每行的開(kāi)始。同樣的, $ 元字符匹配字符串結(jié)尾和字符串中每行的結(jié)尾(直接在每個(gè)換行之前)。
S
DOTALL
使 "." 特殊字符完全匹配任何字符,包括換行;沒(méi)有這個(gè)標(biāo)志, "." 匹配除了換行外的任何字符。
X
VERBOSE
該標(biāo)志通過(guò)給予你更靈活的格式以便你將正則表達(dá)式寫(xiě)得更易于理解。當(dāng)該標(biāo)志被指定時(shí),在 RE 字符串中的空白符被忽略,除非該空白符在字符類(lèi)中或在反斜杠之後;這可以讓你更清晰地組織和縮進(jìn) RE。它也可以允許你將注釋寫(xiě)入 RE,這些注釋會(huì)被引擎忽略;注釋用 "#"號(hào) 來(lái)標(biāo)識(shí),不過(guò)該符號(hào)不能在字符串或反斜杠之後。
最后:如果能用字符串的方法,就不要選擇正則表達(dá)式,因?yàn)樽址椒ǜ?jiǎn)單快速。
- python正則表達(dá)式re模塊詳細(xì)介紹
- python的正則表達(dá)式re模塊的常用方法
- PYTHON正則表達(dá)式 re模塊使用說(shuō)明
- Python模塊學(xué)習(xí) re 正則表達(dá)式
- python re正則表達(dá)式模塊(Regular Expression)
- python正則表達(dá)式re模塊詳解
- Python基礎(chǔ)教程之正則表達(dá)式基本語(yǔ)法以及re模塊
- 正則表達(dá)式+Python re模塊詳解
- Python正則表達(dá)式re模塊詳解(建議收藏!)
- Python中re模塊結(jié)合正則表達(dá)式的實(shí)際應(yīng)用案例
相關(guān)文章
通過(guò)實(shí)例了解python__slots__使用方法
這篇文章主要介紹了通過(guò)實(shí)例了解python__slots__使用方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-09-09解決多個(gè)@Scheduled定時(shí)任務(wù)執(zhí)行時(shí)個(gè)別不執(zhí)行問(wèn)題
這篇文章主要介紹了解決多個(gè)@Scheduled定時(shí)任務(wù)執(zhí)行時(shí)個(gè)別不執(zhí)行問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-08-08Python腳本在Appium庫(kù)上對(duì)移動(dòng)應(yīng)用實(shí)現(xiàn)自動(dòng)化測(cè)試
這篇文章主要介紹了使用Python的Appium庫(kù)對(duì)移動(dòng)應(yīng)用實(shí)現(xiàn)自動(dòng)化測(cè)試的教程,屬于Python腳本的一個(gè)自動(dòng)化應(yīng)用,需要的朋友可以參考下2015-04-04python實(shí)現(xiàn)動(dòng)態(tài)數(shù)組的示例代碼
這篇文章主要介紹了python實(shí)現(xiàn)動(dòng)態(tài)數(shù)組的示例代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07python中的不可變數(shù)據(jù)類(lèi)型與可變數(shù)據(jù)類(lèi)型詳解
探尋python的數(shù)據(jù)類(lèi)型是否可變,也可以更好的理解python對(duì)內(nèi)存的使用情況,下面這篇文章主要給大家介紹了關(guān)于python中不可變數(shù)據(jù)類(lèi)型與可變數(shù)據(jù)類(lèi)型的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下2018-09-09Python實(shí)現(xiàn)身份證前六位地區(qū)碼對(duì)照表文件
這篇文章主要為大家詳細(xì)介紹了如何利用Python實(shí)現(xiàn)身份證前六位地區(qū)碼對(duì)照表文件,文中的示例代碼講解詳細(xì),感興趣的可以了解一下2022-12-12Python實(shí)現(xiàn)時(shí)間序列可視化的方法
matplotlib庫(kù)是一個(gè)用于創(chuàng)建出版質(zhì)量圖表的桌面繪圖包(2D繪圖庫(kù)),是Python中最基本的可視化工具。這篇文章主要介紹了Python時(shí)間序列可視化實(shí)現(xiàn),需要的朋友可以參考下2019-08-08django 鏈接多個(gè)數(shù)據(jù)庫(kù) 并使用原生sql實(shí)現(xiàn)
這篇文章主要介紹了django 鏈接多個(gè)數(shù)據(jù)庫(kù) 并使用原生sql實(shí)現(xiàn),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03