快捷導(dǎo)航

Python正則表達(dá)式急速入門(mén)(小結(jié))

更新時(shí)間：2019年12月16日 10:46:56 作者：朱鋼

這篇文章主要介紹了Python正則表達(dá)式急速入門(mén)(小結(jié))，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

正則表達(dá)式在程序開(kāi)發(fā)中會(huì)經(jīng)常用到，比如數(shù)據(jù)（格式）驗(yàn)證、替換字符內(nèi)容以及提取字符串內(nèi)容等等情況都會(huì)用到，但是目前許多開(kāi)發(fā)人員對(duì)于正則表達(dá)式只是處于了解或者是基本會(huì)用的階段。一旦遇到大批量使用正則表達(dá)式的情況（例如網(wǎng)絡(luò)爬蟲(chóng)）可以說(shuō)基本上就抓瞎了。這篇文章我將帶領(lǐng)大家利用 Python 來(lái)學(xué)習(xí)一下正則表達(dá)式。在閱讀這篇文章前你需要掌握 Python 基礎(chǔ)知識(shí)，或者具有其他開(kāi)發(fā)語(yǔ)言的基礎(chǔ)知識(shí)也可以，因?yàn)榛旧厦糠N語(yǔ)言使用正則表達(dá)式的方式都是類(lèi)似的。

零、正則表達(dá)式基礎(chǔ)

1.提取字符（串） 有時(shí)我們需要從一個(gè)字符串中獲取一段內(nèi)容，這段內(nèi)容可能是一個(gè)字符也可能是一段字符串，如果用逐字對(duì)比遍歷的話不僅耗時(shí)耗力而且還容易出錯(cuò)。那么這個(gè)時(shí)候我們就可以用到正則表達(dá)式中的字符匹配功能。正則表達(dá)式為我們提供了 4 種字符匹配的方法，見(jiàn)下表：

語(yǔ)法	說(shuō)明	例子	可匹配字符串
.	匹配除了換行符 “\n” 以外的任意字符	a.b	acb、adb、a2b、a~b
\	轉(zhuǎn)義，將轉(zhuǎn)移字符后面的一個(gè)字符改變?cè)瓉?lái)的意思	a[b\.\\]c	abc、a.c、a\c
[]	匹配括號(hào)內(nèi)的任意字符	a[b,c,d,e]f	abd、acf、adf、aef
[^]	除了括號(hào)內(nèi)的字符外，其他的字符都匹配	aa,b,c,d,ef	a1f、a#f、azf、agf

2.預(yù)定義字符 所謂預(yù)定義字符就是正則表達(dá)式中為我們預(yù)留的專(zhuān)門(mén)用來(lái)匹配格式化內(nèi)容的字符，例如匹配數(shù)字用的 \d 和匹配空白符的 \s 等等。我們可以利用預(yù)定義字符快速的匹配出一個(gè)字符串中符合要求的內(nèi)容。預(yù)定義字符匹配的內(nèi)容，同樣也可以利用前面所講的字符匹配的方式匹配出來(lái)，但是代碼量會(huì)相對(duì)來(lái)說(shuō)多一點(diǎn)。下表所列的就是預(yù)定義字符：

語(yǔ)法	說(shuō)明	例子	可匹配字符串
^	以什么字符串開(kāi)始	^123	123abc、123321、123zxc
$	以什么字符串結(jié)尾	123$	abc123、321123、zxc123
\b	匹配單詞邊界，不匹配任何字符	\basd\b	asd
\d	匹配數(shù)字0-9	zx\dc	zx1c、zx2c、zx5c
\D	匹配非數(shù)字	zx\Dc	zxvc、zx$c、zx&c
\s	匹配空白符	zx\sc	zx c
\S	匹配非空白符	zx\Sc	zxac、zx1c、zxtc
\w	匹配字母、數(shù)字和下劃線	zx\wc	zxdc、zx1c、zx_c
\W	匹配非字母、數(shù)字和下劃線	zx\Wc	zx c、zx$c、zx(c

在預(yù)定義字符中有如下幾點(diǎn)需要注意：

\b 匹配的只是一個(gè)位置，這個(gè)位置的一側(cè)是構(gòu)成單詞的字符，另一側(cè)為非單詞字符、字符串的開(kāi)始或結(jié)束位置。\b 是零寬度。
\w 在不同編碼語(yǔ)言中匹配的范圍是不一樣的，在使用 ASCII 碼的語(yǔ)言中匹配的是 [a-zA-Z0-9] ，而在使用 Unicode 碼的語(yǔ)言中匹配的是 [a-zA-Z0-9] 和漢字、全角符號(hào)等特殊字符。

3.限制數(shù)量 在某些情況下我們需要匹配重復(fù)的內(nèi)容，這時(shí)我們可以使用數(shù)量限定模式來(lái)進(jìn)行操作。數(shù)量限定如下表：

語(yǔ)法	說(shuō)明	例子	可匹配字符串
*	匹配0到多次	zxc*	zx、zxccccc
+	匹配1次到多次	zxc+	zxc、zxccccc
?	匹配0次或1次	zxc?	zxc、zx
{m}	匹配m次	zxc{3}vb	zxcccvb
{m,}	匹配m次或多次	zxc{3,}vb	zxcccvb、zxccccccccvb
{,n}	匹配0次到n次	zxc{,3}vb	zxvb、zxcvb、zxccvb、zxcccvb
{m,n}	匹配m次到n次	zxc{1,3}	zxcvb、zxccvb、zxcccvb

4.斷言 斷言，又稱(chēng)零寬斷言，指的是當(dāng)斷言表達(dá)式為 True 時(shí)才進(jìn)行匹配，但是并不匹配斷言表達(dá)式內(nèi)容。和 ^ 代表開(kāi)頭， $ 代表結(jié)尾， \b 代表單詞邊界一樣，先行斷言和后行斷言也有類(lèi)似的作用，它們只匹配某些位置，在匹配過(guò)程中，不占用字符，所以被稱(chēng)為零寬。所謂位置，是指字符串中第一個(gè)字符的左邊、最后一個(gè)字符的右邊以及相鄰字符的中間。零寬斷言表達(dá)式有四種：

零寬度負(fù)回顧后發(fā)斷言 (?<!exp)，表達(dá)式不成立時(shí)匹配斷言后面的位置，成立時(shí)不匹配。例如 \w+(?<zxc)\d，匹配不以 zxc 結(jié)尾的字符串；
零寬度負(fù)回顧先行斷言 (?!exp)，表達(dá)式匹配斷言前面的位置，成立時(shí)則不匹配。例如：\d(?!zxc)\w+，匹配不以 zxc 開(kāi)頭的字符串；
先行斷言 (?=exp)，斷言為真時(shí)匹配斷言前面的位置，例如要在 “a regular expression” 這個(gè)字符串中追匹配出 regular 中的 re ，我們可以這么寫(xiě) re(?=gular);
后發(fā)斷言 (?<=exp)，斷言為真時(shí)匹配斷言后面的位置，例如對(duì) “egex represents regular expression” 這個(gè)字符串要想匹配除 regex 和 regular 之外的re，可以用 re(?!g)，該表達(dá)式限定了re右邊的位置，這個(gè)位置后面不是字符g。先行和后發(fā)的區(qū)別就在于該位置之后的字符能否匹配括號(hào)中的表達(dá)式。

5.貪婪/非貪婪 正則表達(dá)式會(huì)盡可能多的去匹配字符，這被稱(chēng)為貪婪模式，貪婪模式是正則表達(dá)式默認(rèn)的模式。但是有時(shí)候貪婪模式會(huì)給我們?cè)斐刹槐匾睦_，例如我們要匹配字符串 “Jack123Chen123Chen” 中的 “Jack123Chen”，但是貪婪模式匹配出的卻是 “Jack123Chen123Chen”，這時(shí)我們就需要用到非貪婪模式來(lái)解決這個(gè)問(wèn)題，非貪婪模式常用的表達(dá)式如下：

語(yǔ)法	說(shuō)明
*?	匹配0次或多次，但要盡可能少重復(fù)
+?	匹配1次或多次，但要盡可能少重復(fù)
??	匹配0次或1次，但要盡可能少重復(fù)
{m,}?	匹配m次或多次，但要盡可能少重復(fù)
{m,n}?	匹配m次或n次，但要盡可能少重復(fù)

6.其他 上述內(nèi)容在正則表達(dá)式中都是常用的，下面我們?cè)賮?lái)看看不常用到的，但是功能同樣強(qiáng)大的語(yǔ)法。

OR 匹配又稱(chēng)匹配分支，也就是說(shuō)只要有一個(gè)分支匹配就算匹配，這和我們?cè)陂_(kāi)發(fā)中使用的 OR 語(yǔ)句類(lèi)似。OR 匹配利用 | 分割分支，例如我們需要匹配出英文姓名，但是在英文中姓和名中間有可能是以 · 分割，也有可能是以空格分隔，這時(shí)我們就可以利用 OR 匹配來(lái)處理這個(gè)問(wèn)題。格式如下：[A-Za-z]+·[A-Za-z]+|[A-Za-z]+\s[A-Za-z]+
組合，將幾個(gè)項(xiàng)組合為一個(gè)單元，這個(gè)單元可通過(guò)* + ? | 等符號(hào)加以修飾，而且可以記住和這個(gè)組合相匹配的字符串以提供伺候的引用使用。分組使用 () 來(lái)表示。例如獲取日期的正則表達(dá)式可以這么寫(xiě)：\d{4}-(0[1-9]|1[0-2])-(0[1-9]|12|3[01])。第一個(gè)分組 (0[1-9]|1[0-2]) 代表月的正則匹配，第二個(gè)分組 (0[1-9]|12|3[01]) 代表日的正則匹配。

一、Python 使用正則表達(dá)式

在 Python 中使用正則表達(dá)式很簡(jiǎn)單，re 模塊向我們提供了正則表達(dá)式的支持。使用步驟一共三步：

將正則表達(dá)式字符串轉(zhuǎn)換為 Pattern 的實(shí)例；
使用 Pattern 實(shí)例去處理要匹配的字符，匹配結(jié)果是一個(gè) Match 實(shí)例；
利用 Match 實(shí)例去進(jìn)行之后的操作。

在 Python 中我們常用的 re 的方法有六種，分別是: compile 、 match 、 search 、 findall 、 split 和 sub ，下面就針對(duì)這六種方法進(jìn)行一下講解。

compile compile 方法的作用是將正則表達(dá)式字符串轉(zhuǎn)化為 Pattern 實(shí)例，它具有兩個(gè)參數(shù) pattern 和 flags ，pattern 參數(shù)類(lèi)型是 string 類(lèi)型，接收的是正則表達(dá)式字符串，flags 類(lèi)型是 int 類(lèi)型，接收的是匹配模式的編號(hào)，flags 參數(shù)是非必填項(xiàng)，默認(rèn)值為 0 （忽略大小寫(xiě)）。flags 匹配模式有如下 6 種：

匹配模式	說(shuō)明
re.I	忽略大小寫(xiě)
re.M	多行匹配模式
re.S	任意匹配模式
re.L	預(yù)定義字符匹配模式
re.U	限定字符匹配模式
re.V	詳細(xì)模式

上述六種模式在實(shí)際開(kāi)發(fā)中很少用到，我們只需要了解即可。使用 compile 很簡(jiǎn)單，如下：

import re  
pattern = re.compile(r'\d')

2.match match 的作用是利用 Pattern 實(shí)例，從字符串左側(cè)開(kāi)始匹配，如果匹配到就返回一個(gè) Match 實(shí)例，如果沒(méi)有匹配到就返回 None。

import re  
def getMatch(message): 
  pattern = re.compile(r'(\d{4}[-年])(\d{2}[-月])(\d{2}日{(diào)0,1})') 
  match = re.match(pattern, message) 
  if match: 
    print(match.groups()) 
    for item in match.groups(): 
      print(item) 
  else: 
    print("沒(méi)匹配上")  
 
if __name__ == '__main__': 
  message = "2019年01月23日大會(huì)開(kāi)始" 
  getMatch(message) 
  message = "會(huì)議于2019-01-23召開(kāi)" 
  getMatch(message)

在代碼中我們使用了 groups 方法，這個(gè)方法用來(lái)獲取匹配出來(lái)的字符串組。到這里過(guò)一會(huì)有很多讀者感到納悶，為什么第一段內(nèi)容能匹配出來(lái)年月日，而第二段內(nèi)容不能呢？這是因?yàn)?match 方法是從字符串的起始位置匹配的。代碼運(yùn)行結(jié)果如圖：

3.search search 方法與 match 方法功能是一樣的，只不過(guò) search 方法是對(duì)整個(gè)字符串進(jìn)行匹配。將前一小節(jié)代碼中的 getMatch 方法進(jìn)行改動(dòng)，即可將第二段內(nèi)容中的年月日匹配出來(lái)。

import re  
def getMatch(message): 
  pattern = re.compile(r'(\d{4}[-年])(\d{2}[-月])(\d{2}日{(diào)0,1})') 
  match = re.search(pattern, message) 
  if match: 
    print(match.groups()) 
    for item in match.groups(): 
      print(item) 
  else: 
    print("沒(méi)匹配上")  
 
if __name__ == '__main__': 
  message = "2019年01月23日大會(huì)開(kāi)始" 
  getMatch(message) 
  message = "會(huì)議于2019-01-23召開(kāi)" 
  getMatch(message)

上述代碼運(yùn)行結(jié)果如下圖：

4.findall findall 方法的作用是匹配整個(gè)字符串，以列表的形式返回所有匹配結(jié)果。

import re  
 
def getMatch(message): 
  pattern = re.compile(r'\w+') 
  match = re.findall(pattern, message) 
  if match: 
    print(match) 
  else: 
    print("沒(méi)匹配上")  
 
if __name__ == '__main__': 
  message = "my name is 張三" 
  getMatch(message) 
  message = "張三 is me" 
  getMatch(message)

代碼運(yùn)行結(jié)果如下圖：

5.split split 方法是利用指定的字符來(lái)分割字符串。

import re  
 
def getMatch(message): 
  pattern = re.compile(r'-') 
  match = re.split(pattern, message) 
  if match: 
    print(match) 
  else: 
    print("沒(méi)匹配上")  
 
if __name__ == '__main__': 
  message = "2018-9-12" 
  getMatch(message) 
  message = "第一步-第二步-第三步-第四步-and more" 
  getMatch(message)

上述代碼運(yùn)行結(jié)果如下圖：

6.sub sub 方法用來(lái)替換字符串，它接受5個(gè)參數(shù)，其中常用的有三個(gè)：

pattern，Pattern 實(shí)例
string，等待替換的字符串
repl，表示替換的新字符串或需要執(zhí)行的替換方法
count，替換次數(shù)，默認(rèn)為0表示全部替換

import re  
 
def getMatch(match): 
  return match.group(0).replace(r'年齡', 'age')  
 
if __name__ == '__main__': 
  message = "your 年齡 ?" 
  pattern=re.compile(r'\w+') 
  print(re.sub(pattern,getMatch,message))

代碼運(yùn)行結(jié)果如下圖：

三、總結(jié)

Python 中正則表達(dá)式使用起來(lái)非常方便，上面所展示的代碼，完全可以直接復(fù)制出來(lái)稍加修改后放在項(xiàng)目中使用。內(nèi)容不多，主要是講解代碼怎么使用，希望大家完全理解掌握了正則表達(dá)式的寫(xiě)法。

作者簡(jiǎn)介：
朱鋼，筆名喵叔，國(guó)內(nèi)某技術(shù)博客認(rèn)證專(zhuān)家，.NET高級(jí)開(kāi)發(fā)工程師，7年一線開(kāi)發(fā)經(jīng)驗(yàn)，參與過(guò)電子政務(wù)系統(tǒng)和AI客服系統(tǒng)的開(kāi)發(fā)，以及互聯(lián)網(wǎng)招聘網(wǎng)站的架構(gòu)設(shè)計(jì)，目前就職于一家初創(chuàng)公司，從事企業(yè)級(jí)安全監(jiān)控系統(tǒng)的開(kāi)發(fā)。

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章: