Python進(jìn)階篇之正則表達(dá)式常用語法總結(jié)
正則表達(dá)式概述
正則表達(dá)式是一個(gè)特殊的字符序列,它能幫助你方便的檢查一個(gè)字符串是否與某種模式匹配。 Python 自1.5版本起增加了re 模塊,它提供 Perl 風(fēng)格的正則表達(dá)式模式。 re 模塊使 Python 語言擁有全部的正則表達(dá)式功能。正則表達(dá)式是一個(gè)強(qiáng)大的字符處理工具,其本質(zhì)是一個(gè)字符序列,可以方便檢查一個(gè)字符串是否與我們定義的字符序列的某種模式相匹配
在python中,正則表達(dá)式可以通過import re模塊使用,本文將全面介紹正則表達(dá)式的使用方法
寫在正則表達(dá)式里面的普通字符都是表示:直接匹配他們;
但是有一些特殊字符,術(shù)語metacharacters(元字符)。它們出現(xiàn)在正則表達(dá)式字符串中,不上表示直接匹配他們,而是表達(dá)一些特別含義
這些特殊的元字符包括下面這些:
. * + ? \ [ ] ^ $ { } | ( )
我們來分別介紹一下他們的含義:
1、點(diǎn)-匹配所有字符
. 表示要匹配除了換行符之外的任何單個(gè)字符
比如,你要從下面的文本中,選擇所有的顏色。
蘋果是綠色的
橙子是橙色的
香蕉是黃色的
烏鴉是黑色的
也就是要找到所有以色結(jié)尾,并且包括前面的一個(gè)字符的詞語。也就可以這樣寫正則表達(dá)式.色
其中點(diǎn)代表了任意一個(gè)字符,注意是任一個(gè)字符。
.色合起來就是表示要找到任意一個(gè)字符后面是色這個(gè)字,合起來兩個(gè)字的字符串
范例:
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 content='''蘋果是綠色的 橙子是橙色的 香蕉是黃色的 烏鴉是黑色的''' p=re.compile(r'.色')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯 for one in p.findall(content): print(one)
2、星號-重復(fù)匹配任意次
*-表示匹配前面的子表達(dá)式任意次,包括0次
比如,你要從下面的文本中,選擇每行逗號后面的字符串內(nèi)容,包括逗號本身。注意,這里的逗號是文本的逗號。
蘋果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,
就可以這樣寫正則表達(dá)式,.*。
范例:
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 content='''蘋果,是綠色的 橙子,是橙色的 香蕉,是黃色的 烏鴉,是黑色的 猴子,''' p=re.compile(r',.*')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯 for one in p.findall(content): print(one)
這樣就包括逗號在內(nèi)的后面的字符串都匹配進(jìn)來了
3、加號-重復(fù)匹配多次
+表示匹配前面的子表達(dá)式一次或多次,不包括0次
比如,還是上面的例子,你要從文本中,選擇每行后面的字符串,包括逗號本身。但是添加一個(gè)條件,如果逗號后面沒有內(nèi)容,就不要選擇了。
下面的文本中最后一行逗號后面沒有內(nèi)容,就不要選擇了
蘋果,是綠色的
橙子,是橙色的
香蕉,是黃色的
烏鴉,是黑色的
猴子,
就可以這樣寫正則表達(dá)式,.+
范例:
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 content='''蘋果,是綠色的 橙子,是橙色的 香蕉,是黃色的 烏鴉,是黑色的 猴子,''' p=re.compile(r',.+')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯 for one in p.findall(content): print(one)
這樣最后一行逗號后面沒有內(nèi)容,所以最后一行也就不會匹配
4、 花括號-匹配指定次數(shù)
花括號表示前面的字符匹配指定的次數(shù)
比如,下面文本
紅彤彤,綠油油,黑乎乎,綠油油油油
表達(dá)式油{3,4}就表示匹配連續(xù)的油字至少3次,至多4次
范例:
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 content='''紅彤彤,綠油油,黑乎乎,綠油油油油''' p=re.compile(r'綠油{3,4}')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯 for one in p.findall(content): print(one)
這里就匹配綠后面匹配油至少3次,至多4次的字符串
5、 問號-貪婪模式和非貪婪模式
我們要把下面的字符串中的所有html標(biāo)簽提取出來
得到這樣一個(gè)列表
很容易想到使用正則表達(dá)式<.*>
寫出如下代碼
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 source='<html><head><title>Title</title>' p=re.compile(r'<.*>')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯 print(p.findall(source))
但是運(yùn)行結(jié)果,卻是把整個(gè)字符串全部匹配上了
怎么回事?原來在正則表達(dá)式中,’*’,’+’,’?'都是貪婪的,使用他們時(shí),會盡可能多的匹配內(nèi)容,所以,<.*>中的星號(表示任意次數(shù)的重復(fù)),一直匹配到了字符串最后</tlitle>里面同樣符合匹配模式。
為了解決整個(gè)問題,就需要使用非貪婪模式,也就是在星號后面加上?,變成這樣<.*?>
代碼改為
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 source='<html><head><title>Title</title>' p=re.compile(r'<.*?>')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯 print(p.findall(source))
這樣就單獨(dú)去匹配出來了每一個(gè)標(biāo)簽
6、方括號-匹配幾個(gè)字符之一
方括號表示要匹配某幾種類型字符。
比如
[abc]可以匹配a,b,c里面的任意一個(gè)字符。等價(jià)于[a-c]
a-c中間的-表示一個(gè)范圍從a到c
如果你想匹配所有小寫字母,可以使用[a-z]
一些元字符在方括號內(nèi)便失去了魔法,變得和普通字符一樣了。
比如
[akm.]匹配a k m .里面的任意一個(gè)字符
在這里. 在括號不再表示匹配任意字符了,而就是表示匹配.這個(gè)字符
例如:
實(shí)例 | 描述 |
---|---|
[pP]ython | 匹配“Python”或者“python” |
rub[ye] | 匹配“ruby”或者“rube” |
7、起始位置和單行、多行模式
^表示匹配文本的起始位置
正則表達(dá)式可以設(shè)定單行模式和多行模式
如果是單行模式,表示匹配整個(gè)文本的開頭位置。
如果是多行模式,表示匹配文本每行的開頭位置。
比如,下面的文本中,每行最前面的數(shù)字表示水果的編號,最后的數(shù)字表示價(jià)格
001-蘋果價(jià)格-60,
002-橙子價(jià)格-70,
003-香蕉價(jià)格-80,
范例:
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 source='''001-蘋果-60 002-橙子-70 003-香蕉-80''' p=re.compile(r'^\d+')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯 for one in p.findall(source): print(one)
運(yùn)行結(jié)果如下
如果去掉complie的第二個(gè)參數(shù)re.M,運(yùn)行結(jié)果如下
就只進(jìn)行一行匹配,
因?yàn)樵趩涡心J较?,^只會匹配整個(gè)文本的開頭位置
$表示匹配文本的結(jié)束位置
如果是單行模式,表示匹配整個(gè)文本的結(jié)束位置。
如果是多行模式,表示匹配文本每行的結(jié)束位置。
比如,下面的文本中,每行最前面的數(shù)字表示水果的編號,最后的數(shù)字表示價(jià)格
001-蘋果價(jià)格-60,
002-橙子價(jià)格-70,
003-香蕉價(jià)格-80,
如果我們要提取所有的水果編號,用這樣的正則表達(dá)式\d+$
范例:
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 source='''001-蘋果-60 002-橙子-70 003-香蕉-80''' p=re.compile(r'^\d+$',re.M)#re.M進(jìn)行多行匹配 for one in p.findall(source): print(one)
成功匹配到每行最后的價(jià)格
8、括號-組選擇
主括號稱之為正則表達(dá)式的組選擇。是從正則表達(dá)式匹配的內(nèi)容里面扣取出其中的某些部分
前面,我們有個(gè)例子,從下面的文本中,選擇每行逗號前面的字符串,也包括逗號本身。
蘋果,蘋果是綠色的
橙子,橙子是橙色的
香蕉,香蕉是黃色的
就可以這樣寫正則表達(dá)式個(gè)^.*,。
但是,如果我們要求不要包括逗號呢?
當(dāng)然不能直接這樣寫^.*
因?yàn)樽詈蟮亩禾柺翘卣魉?,如果去掉它,就沒法找逗號前面的了。
但是把逗號放在正則表達(dá)式中,又會包含逗號。
解決問題的方法就是使用組選擇符:括號。
我們這樣寫^(.*),
我們把要從整個(gè)表達(dá)式中提取的部分放在括號中,這樣水果的名字就被單獨(dú)的放在組group中了。
對應(yīng)的Python代碼如下
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 source='''蘋果,蘋果是綠色的 橙子,橙子是橙色的 香蕉,香蕉是黃色的''' p=re.compile(r'^(.*),',re.M)#re.M進(jìn)行多行匹配 for one in p.findall(source): print(one)
這樣我們就可以把,前的字符取出來了
9、反斜杠-對元字符的轉(zhuǎn)義
反斜杠\在正則表達(dá)式中有多種用途
比如,我們要在下面的文本中搜索所有點(diǎn)前面的字符串,也包括點(diǎn)本身
蘋果.是綠色的
橙子.是橙色的
香蕉.是黃色的
如果,我們這樣寫正則表達(dá)式.*.,聰明的你肯定發(fā)現(xiàn)不對勁。
因?yàn)辄c(diǎn)是一個(gè)元字符,直接出現(xiàn)在正則表達(dá)式中,表示匹配任意的單個(gè)字符,不能表示.這個(gè)字符的本身的意思了
怎么辦呢?
如果我們要搜索的內(nèi)容本身就包含元字符,就可以使用反斜杠進(jìn)行轉(zhuǎn)義
這里我們就應(yīng)用這樣的表達(dá)式.*\.
范例:
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 source='''蘋果.是綠色的 橙子.是橙色的 香蕉.是黃色的''' p=re.compile(r'.*\.')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯 for one in p.findall(source): print(one)
成功匹配!
利用反斜杠還可以匹配某種字符類型
反斜杠后面接一些字符,表示匹配某種類型的一個(gè)字符
字符 | 功能 |
---|---|
\d | 匹配0~9之間的任意一個(gè)數(shù)字字符,等價(jià)于表達(dá)式[0-9] |
\D | 匹配任意一個(gè)不上0-9之間的數(shù)字字符,等價(jià)于表達(dá)是[^0-9] |
\s | 匹配任意一個(gè)空白字符,包括空格、tab、換行符等、等價(jià)于[\t\n\r\f\v] |
\S | 匹配任意一個(gè)非空白字符,等價(jià)于[^\t\tn\r\f\v] |
\w | 匹配任意一個(gè)文字字符,包括大小寫、數(shù)字、下劃線、等于[a-zA-A0-9] |
\W | 匹配任意一個(gè)非文字字符,等價(jià)于表達(dá)式[^a-zA-Z0-9] |
反斜杠也可以用在方括號里面,比如[\s,.]:表示匹配任何空白字符,或者逗號,或者點(diǎn)
10、修飾符-可選標(biāo)志
正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個(gè)可選的標(biāo)志。多個(gè)標(biāo)志可以通過按位OR(I)它們來指定。如re.l | re.M被設(shè)置成Ⅰ和M標(biāo)志:
修飾符 | 描述 |
---|---|
re.I | 使匹配對大小寫不敏感 |
re.L | 做本地化識別(locale-aware)匹配 |
re.M | 多行匹配,影響^和$ |
re.S | 使. 匹配包括換行在內(nèi)的所有字符 |
re.U | 根據(jù)Unicode字符集解析字符。這個(gè)標(biāo)志影響lw,W,Nb,\B. |
re.X | 該標(biāo)志通過給予你更靈活的格式以便你將正則表達(dá)式寫得更易于理解 |
11、使用正則表達(dá)式切割字符串
字符串對象的split()方法只適應(yīng)于非常簡單的字符串分割情形。當(dāng)你需要更加靈活的切割字符串的時(shí)候,就不好用了。
比如,我們需要從下面字符串中提取武將的名字。
我們發(fā)現(xiàn)這些名字之間,有的是分號隔開,有的是逗號隔開,有的是空格隔開,而且分割符號周圍還有不定數(shù)量的空格
names =“關(guān)羽;張飛,趙云,馬超,黃忠 李逵”
這時(shí),最好使用正則表達(dá)式里面的split方法:
范例:
# 導(dǎo)入re模塊 import re #輸入文本內(nèi)容 names ="關(guān)羽;張飛,趙云,馬超,黃忠 李逵" namelist=re.split(r'[;,\s]\s*',names) print(namelist)
正則表達(dá)式[;,ls]\s*指定了,分割符為分號、逗號、空格里面的任意一種均可,并且該符號周圍可以有不定數(shù)量的空格。
以上就是Python進(jìn)階篇之正則表達(dá)式常用語法總結(jié)的詳細(xì)內(nèi)容,更多關(guān)于Python正則表達(dá)式的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Django和Flask框架優(yōu)缺點(diǎn)對比
這篇文章主要介紹了Django和Flask框架相關(guān)對比,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-10-10淺談TensorFlow中讀取圖像數(shù)據(jù)的三種方式
這篇文章主要介紹了淺談TensorFlow中讀取圖像數(shù)據(jù)的三種方式,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-06-06Python ATM功能實(shí)現(xiàn)代碼實(shí)例
這篇文章主要介紹了Python ATM功能實(shí)現(xiàn)代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-03-03Python Tkinter實(shí)現(xiàn)簡易計(jì)算器功能
這篇文章主要為大家詳細(xì)介紹了Python Tkinter實(shí)現(xiàn)簡易計(jì)算器功能,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-01-01python中Apriori算法實(shí)現(xiàn)講解
給大家詳細(xì)講解一下Apriori 算法在python中的實(shí)現(xiàn)過程,有需要的朋友收藏一下本片文章吧。2017-12-12