快捷導(dǎo)航

Python進(jìn)階篇之正則表達(dá)式常用語法總結(jié)

更新時間：2022年08月02日 16:15:42 作者：樣子的木偶

正則表達(dá)式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。本文為大家總結(jié)了一些正則表達(dá)式常用語法，希望有所幫助

正則表達(dá)式概述
1、點-匹配所有字符
2、星號-重復(fù)匹配任意次
3、加號-重復(fù)匹配多次
4、花括號-匹配指定次數(shù)
5、問號-貪婪模式和非貪婪模式
6、方括號-匹配幾個字符之一
7、起始位置和單行、多行模式
8、括號-組選擇
9、反斜杠-對元字符的轉(zhuǎn)義
10、修飾符-可選標(biāo)志
11、使用正則表達(dá)式切割字符串

正則表達(dá)式概述

正則表達(dá)式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。 Python 自1.5版本起增加了re 模塊，它提供 Perl 風(fēng)格的正則表達(dá)式模式。 re 模塊使 Python 語言擁有全部的正則表達(dá)式功能。正則表達(dá)式是一個強大的字符處理工具，其本質(zhì)是一個字符序列，可以方便檢查一個字符串是否與我們定義的字符序列的某種模式相匹配

在python中，正則表達(dá)式可以通過import re模塊使用，本文將全面介紹正則表達(dá)式的使用方法

寫在正則表達(dá)式里面的普通字符都是表示：直接匹配他們；

但是有一些特殊字符，術(shù)語metacharacters（元字符）。它們出現(xiàn)在正則表達(dá)式字符串中，不上表示直接匹配他們，而是表達(dá)一些特別含義

這些特殊的元字符包括下面這些：

. * + ? \ [ ] ^ $ { } | ( )

我們來分別介紹一下他們的含義：

1、點-匹配所有字符

. 表示要匹配除了換行符之外的任何單個字符

比如，你要從下面的文本中，選擇所有的顏色。

蘋果是綠色的
橙子是橙色的
香蕉是黃色的
烏鴉是黑色的

也就是要找到所有以色結(jié)尾，并且包括前面的一個字符的詞語。也就可以這樣寫正則表達(dá)式.色

其中點代表了任意一個字符，注意是任一個字符。

.色合起來就是表示要找到任意一個字符后面是色這個字，合起來兩個字的字符串
范例：

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
content='''蘋果是綠色的
橙子是橙色的
香蕉是黃色的
烏鴉是黑色的'''
p=re.compile(r'.色')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯
for one in p.findall(content):
    print(one)

2、星號-重復(fù)匹配任意次

*-表示匹配前面的子表達(dá)式任意次，包括0次

比如，你要從下面的文本中，選擇每行逗號后面的字符串內(nèi)容，包括逗號本身。注意，這里的逗號是文本的逗號。

蘋果，是綠色的
橙子，是橙色的
香蕉，是黃色的
烏鴉，是黑色的
猴子，

就可以這樣寫正則表達(dá)式，.*。

范例:

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
content='''蘋果，是綠色的
橙子，是橙色的
香蕉，是黃色的
烏鴉，是黑色的
猴子，'''
p=re.compile(r'，.*')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯
for one in p.findall(content):
    print(one)

這樣就包括逗號在內(nèi)的后面的字符串都匹配進(jìn)來了

3、加號-重復(fù)匹配多次

+表示匹配前面的子表達(dá)式一次或多次，不包括0次

比如，還是上面的例子，你要從文本中，選擇每行后面的字符串，包括逗號本身。但是添加一個條件，如果逗號后面沒有內(nèi)容，就不要選擇了。

下面的文本中最后一行逗號后面沒有內(nèi)容，就不要選擇了

蘋果，是綠色的
橙子，是橙色的
香蕉，是黃色的
烏鴉，是黑色的
猴子，

就可以這樣寫正則表達(dá)式，.+

范例：

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
content='''蘋果，是綠色的
橙子，是橙色的
香蕉，是黃色的
烏鴉，是黑色的
猴子，'''
p=re.compile(r'，.+')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯
for one in p.findall(content):
    print(one)

這樣最后一行逗號后面沒有內(nèi)容，所以最后一行也就不會匹配

4、花括號-匹配指定次數(shù)

花括號表示前面的字符匹配指定的次數(shù)

比如，下面文本

紅彤彤，綠油油，黑乎乎，綠油油油油

表達(dá)式油{3,4}就表示匹配連續(xù)的油字至少3次，至多4次

范例：

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
content='''紅彤彤，綠油油，黑乎乎，綠油油油油'''
p=re.compile(r'綠油{3,4}')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯
for one in p.findall(content):
    print(one)

這里就匹配綠后面匹配油至少3次，至多4次的字符串

5、問號-貪婪模式和非貪婪模式

我們要把下面的字符串中的所有html標(biāo)簽提取出來

得到這樣一個列表

很容易想到使用正則表達(dá)式<.*>

寫出如下代碼

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='<html><head><title>Title</title>'
p=re.compile(r'<.*>')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯
print(p.findall(source))

但是運行結(jié)果，卻是把整個字符串全部匹配上了

怎么回事？原來在正則表達(dá)式中，’*’,’+’,’?'都是貪婪的，使用他們時，會盡可能多的匹配內(nèi)容,所以，<.*>中的星號（表示任意次數(shù)的重復(fù)），一直匹配到了字符串最后</tlitle>里面同樣符合匹配模式。

為了解決整個問題，就需要使用非貪婪模式，也就是在星號后面加上?，變成這樣<.*?>

代碼改為

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='<html><head><title>Title</title>'
p=re.compile(r'<.*?>')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯
print(p.findall(source))

這樣就單獨去匹配出來了每一個標(biāo)簽

6、方括號-匹配幾個字符之一

方括號表示要匹配某幾種類型字符。

比如

[abc]可以匹配a，b，c里面的任意一個字符。等價于[a-c]

a-c中間的-表示一個范圍從a到c

如果你想匹配所有小寫字母，可以使用[a-z]

一些元字符在方括號內(nèi)便失去了魔法，變得和普通字符一樣了。

比如

[akm.]匹配a k m .里面的任意一個字符

在這里. 在括號不再表示匹配任意字符了，而就是表示匹配.這個字符

例如：

實例	描述
[pP]ython	匹配“Python”或者“python”
rub[ye]	匹配“ruby”或者“rube”

7、起始位置和單行、多行模式

^表示匹配文本的起始位置

正則表達(dá)式可以設(shè)定單行模式和多行模式

如果是單行模式，表示匹配整個文本的開頭位置。

如果是多行模式，表示匹配文本每行的開頭位置。

比如，下面的文本中，每行最前面的數(shù)字表示水果的編號，最后的數(shù)字表示價格

001-蘋果價格-60，
002-橙子價格-70,
003-香蕉價格-80,

范例：

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='''001-蘋果-60
002-橙子-70
003-香蕉-80'''
p=re.compile(r'^\d+')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯
for one in p.findall(source):
    print(one)

運行結(jié)果如下

如果去掉complie的第二個參數(shù)re.M，運行結(jié)果如下

就只進(jìn)行一行匹配，

因為在單行模式下，^只會匹配整個文本的開頭位置

$表示匹配文本的結(jié)束位置

如果是單行模式，表示匹配整個文本的結(jié)束位置。

如果是多行模式，表示匹配文本每行的結(jié)束位置。

比如，下面的文本中，每行最前面的數(shù)字表示水果的編號，最后的數(shù)字表示價格

001-蘋果價格-60,
002-橙子價格-70,
003-香蕉價格-80,

如果我們要提取所有的水果編號，用這樣的正則表達(dá)式\d+$

范例：

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='''001-蘋果-60
002-橙子-70
003-香蕉-80'''
p=re.compile(r'^\d+$',re.M)#re.M進(jìn)行多行匹配
for one in p.findall(source):
    print(one)

成功匹配到每行最后的價格

8、括號-組選擇

主括號稱之為正則表達(dá)式的組選擇。是從正則表達(dá)式匹配的內(nèi)容里面扣取出其中的某些部分

前面，我們有個例子，從下面的文本中，選擇每行逗號前面的字符串，也包括逗號本身。

蘋果，蘋果是綠色的
橙子，橙子是橙色的
香蕉，香蕉是黃色的

就可以這樣寫正則表達(dá)式個^.*，。

但是，如果我們要求不要包括逗號呢?

當(dāng)然不能直接這樣寫^.*

因為最后的逗號是特征所在，如果去掉它，就沒法找逗號前面的了。

但是把逗號放在正則表達(dá)式中，又會包含逗號。

解決問題的方法就是使用組選擇符:括號。

我們這樣寫^(.*)，

我們把要從整個表達(dá)式中提取的部分放在括號中，這樣水果的名字就被單獨的放在組group中了。

對應(yīng)的Python代碼如下

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='''蘋果，蘋果是綠色的
橙子，橙子是橙色的
香蕉，香蕉是黃色的'''
p=re.compile(r'^(.*)，',re.M)#re.M進(jìn)行多行匹配
for one in p.findall(source):
    print(one)

這樣我們就可以把，前的字符取出來了

9、反斜杠-對元字符的轉(zhuǎn)義

反斜杠\在正則表達(dá)式中有多種用途

比如，我們要在下面的文本中搜索所有點前面的字符串，也包括點本身

蘋果.是綠色的
橙子.是橙色的
香蕉.是黃色的

如果，我們這樣寫正則表達(dá)式.*.，聰明的你肯定發(fā)現(xiàn)不對勁。

因為點是一個元字符，直接出現(xiàn)在正則表達(dá)式中，表示匹配任意的單個字符，不能表示.這個字符的本身的意思了

怎么辦呢？

如果我們要搜索的內(nèi)容本身就包含元字符，就可以使用反斜杠進(jìn)行轉(zhuǎn)義

這里我們就應(yīng)用這樣的表達(dá)式.*\.

范例：

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
source='''蘋果.是綠色的
橙子.是橙色的
香蕉.是黃色的'''
p=re.compile(r'.*\.')#r表示不要進(jìn)行python語法中對字符串的轉(zhuǎn)譯
for one in p.findall(source):
    print(one)

成功匹配！

利用反斜杠還可以匹配某種字符類型

反斜杠后面接一些字符，表示匹配某種類型的一個字符

字符	功能
\d	匹配0~9之間的任意一個數(shù)字字符，等價于表達(dá)式[0-9]
\D	匹配任意一個不上0-9之間的數(shù)字字符，等價于表達(dá)是[^0-9]
\s	匹配任意一個空白字符，包括空格、tab、換行符等、等價于[\t\n\r\f\v]
\S	匹配任意一個非空白字符，等價于[^\t\tn\r\f\v]
\w	匹配任意一個文字字符，包括大小寫、數(shù)字、下劃線、等于[a-zA-A0-9]
\W	匹配任意一個非文字字符，等價于表達(dá)式[^a-zA-Z0-9]

反斜杠也可以用在方括號里面，比如[\s,.]:表示匹配任何空白字符，或者逗號，或者點

10、修飾符-可選標(biāo)志

正則表達(dá)式可以包含一些可選標(biāo)志修飾符來控制匹配的模式。修飾符被指定為一個可選的標(biāo)志。多個標(biāo)志可以通過按位OR(I)它們來指定。如re.l | re.M被設(shè)置成Ⅰ和M標(biāo)志:

修飾符	描述
re.I	使匹配對大小寫不敏感
re.L	做本地化識別(locale-aware)匹配
re.M	多行匹配，影響^和$
re.S	使`．`匹配包括換行在內(nèi)的所有字符
re.U	根據(jù)Unicode字符集解析字符。這個標(biāo)志影響lw,W,Nb,\B.
re.X	該標(biāo)志通過給予你更靈活的格式以便你將正則表達(dá)式寫得更易于理解

11、使用正則表達(dá)式切割字符串

字符串對象的split()方法只適應(yīng)于非常簡單的字符串分割情形。當(dāng)你需要更加靈活的切割字符串的時候，就不好用了。

比如，我們需要從下面字符串中提取武將的名字。

我們發(fā)現(xiàn)這些名字之間，有的是分號隔開，有的是逗號隔開，有的是空格隔開，而且分割符號周圍還有不定數(shù)量的空格

names =“關(guān)羽;張飛，趙云,馬超，黃忠李逵”

這時，最好使用正則表達(dá)式里面的split方法:

范例：

# 導(dǎo)入re模塊
import re
#輸入文本內(nèi)容
names ="關(guān)羽;張飛，趙云,馬超，黃忠  李逵"
namelist=re.split(r'[;，\s]\s*',names)
print(namelist)

正則表達(dá)式[;,ls]\s*指定了，分割符為分號、逗號、空格里面的任意一種均可，并且該符號周圍可以有不定數(shù)量的空格。

以上就是Python進(jìn)階篇之正則表達(dá)式常用語法總結(jié)的詳細(xì)內(nèi)容，更多關(guān)于Python正則表達(dá)式的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡(luò)編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Python進(jìn)階篇之正則表達(dá)式常用語法總結(jié)

目錄

正則表達(dá)式概述

1、點-匹配所有字符

2、星號-重復(fù)匹配任意次

3、加號-重復(fù)匹配多次

4、花括號-匹配指定次數(shù)

5、問號-貪婪模式和非貪婪模式

6、方括號-匹配幾個字符之一

7、起始位置和單行、多行模式

8、括號-組選擇

9、反斜杠-對元字符的轉(zhuǎn)義

10、修飾符-可選標(biāo)志

11、使用正則表達(dá)式切割字符串

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python進(jìn)階篇之正則表達(dá)式常用語法總結(jié)

目錄

正則表達(dá)式概述

1、點-匹配所有字符

2、星號-重復(fù)匹配任意次

3、加號-重復(fù)匹配多次

4、 花括號-匹配指定次數(shù)

5、 問號-貪婪模式和非貪婪模式

6、方括號-匹配幾個字符之一

7、起始位置和單行、多行模式

8、括號-組選擇

9、反斜杠-對元字符的轉(zhuǎn)義

10、修飾符-可選標(biāo)志

11、使用正則表達(dá)式切割字符串

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

2、星號-重復(fù)匹配任意次

3、加號-重復(fù)匹配多次

4、花括號-匹配指定次數(shù)

5、問號-貪婪模式和非貪婪模式

6、方括號-匹配幾個字符之一

7、起始位置和單行、多行模式

8、括號-組選擇

10、修飾符-可選標(biāo)志