Python正則表達(dá)式高級使用方法匯總

更新時間：2020年06月18日 11:50:55 作者：guran0822

這篇文章主要介紹了Python正則表達(dá)式高級使用方法解析,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下

正則表達(dá)式是一個以簡單直觀的方式匹配指定文本信息從而達(dá)到查找、替換等操作的目的。正則表達(dá)式以其簡單而高效的特點(diǎn)使得其在數(shù)據(jù)分析和數(shù)據(jù)驗證方面應(yīng)用廣泛。

對于簡單的正則表達(dá)式可以直接百度之，這里重點(diǎn)引薦下‘特殊'操作。

1.非貪婪模式 - {x,y}?

非貪婪模式是指在使用正則匹配時，盡可能少的匹配（默認(rèn)是貪婪模式，即：盡可能多的匹配）。例：

>>> re.search(r'[\d]{2,5}?','091234568')

<_sre.SRE_Match object; span=(0, 2), match='09'>

在這里{2,5}?匹配只是匹配2-5個[\d]時只要滿足2（最少的）個就好，在看看貪婪模式：

>>> re.search(r'[\d]{2,5}','091234568')
<_sre.SRE_Match object; span=(0, 5), match='09123'>　　

這時候，匹配2-5個[\d]時，默認(rèn)匹配最多的5個。

注意：貪婪和非貪婪模式的區(qū)別就是重復(fù)操作符后有沒有？字符

2.分組

正則表達(dá)式提供了一個機(jī)制將表達(dá)式分組，匹配的結(jié)果也將按照表達(dá)式單獨(dú)分組。例：

>>> m = re.search(r'(\d{3})-(\d{5})','029-25642')
>>> m.group()
'029-25642'
>>> m.groups()
('029', '25642')
>>> m.group(2)
'25642'

可以通過m.groups()看到分組匹配結(jié)果，通過m.group(index)查看具體編號的分組結(jié)果（編號從1開始，0是完整的匹配）。那分組有什么用呢，好像也沒什么特殊的含義，不急，下面會用到。

3.引用分組（回溯） - \N

有這么一種情況，比如假設(shè)我要找出一個html文本中的所有<a></a>標(biāo)簽，怎么辦？試試這樣：

>>> re.search(r'<(\w+)>.+</(\w+)>','<a>this is a demo</e>')
<_sre.SRE_Match object; span=(0, 21), match='<a>this is a demo</e>'>

奇怪的事情來了，為什么<a></e>被匹配成功了，顯然結(jié)果并不是想要的，那怎么才能只匹配<a></a>而過濾掉其他的呢（比如<a></e>）？答案就是引用分組，例：

>>> re.search(r'<(\w+)>.+</\1>','<a>this is a demo</e><p>demo two</p>')
<_sre.SRE_Match object; span=(21, 36), match='<p>demo two</p>'>　　

這里\1是關(guān)鍵，意思就是當(dāng)前位置匹配的結(jié)果需要和第一個分組匹配的結(jié)果一致，或者說第一個分組的匹配結(jié)果期望在這里再次出現(xiàn)。以此類推。該方法最多只能匹配前99個分組。

4.分組命名 - (?P<name>.*)

分組命名最開始由python引入，比如Django路由中會用到。分組命名的好處是方便，直接使用名字比編號要簡單而且不會變化，例：

>>> m = re.search(r'(?P<first_name>\d{3})-(?P<second_name>\d{4})','029-8967')
>>> m.group('first_name')
'029'
>>> m.groupdict()
 {'first_name': '029', 'second_name': '8967'}

當(dāng)然，命名分組仍然是編號分組，依然可以使用編號進(jìn)行查找分組。

5.先行斷言 - X(?!Y)、X(?=Y)

假設(shè)有這么一種情況，要查找所有163信箱的文本，也就是@163.com結(jié)尾的所有email賬號信息，也就是說不要@163.com這部分，但是其還要參與匹配。這就用到了先行斷言，也即基于之后的內(nèi)容是否存在接收或拒絕一個匹配，而不需要接下來的內(nèi)容作為匹配的一部分。例：