欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python網(wǎng)絡(luò)爬蟲(chóng)精解之正則表達(dá)式的使用說(shuō)明

 更新時(shí)間:2021年09月27日 08:57:35   作者:小狐貍夢(mèng)想去童話鎮(zhèn)  
正則表達(dá)式是對(duì)字符串操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個(gè)“規(guī)則字符串”,這個(gè)“規(guī)則字符串”用來(lái)表達(dá)對(duì)字符串的一種過(guò)濾邏輯

一、常見(jiàn)的匹配規(guī)則

在這里插入圖片描述

二、常見(jiàn)的匹配方法

1、match()

match()方法從字符串的起始位置開(kāi)始匹配,該方法有兩個(gè)參數(shù),第一個(gè)是正則表達(dá)式,第二個(gè)是需要匹配的字符串;

re.match(正則表達(dá)式,字符串)

如果該方法匹配成功,返回的是SRE_Match對(duì)象,如果未匹配到,則返回None。

返回成功后有兩個(gè)方法,group()方法用來(lái)查看匹配到的字符串,span()方法用來(lái)輸出匹配的范圍。

import re
content = 'Hello_World,123 456'
result = re.match('^Hello\w{6}\W\d\d\d\s\d{3}',content)
print(result)
print(result.group())
print(result.span())

【運(yùn)行結(jié)果】

<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)

子字符串匹配

在上述我們匹配到了完整的字符串,但是實(shí)際需求中可能只需要其中的一部分,這時(shí)我們僅需要在要獲取的子字符串匹配時(shí)加上括號(hào)即可。

import re
content = 'Hello_World,123 456'
result = re.match('^Hello\w{6}\W(\d+)\s(\d{3})',content)
print(result)
print(result.group())
print(result.span())
print(result.group(1))
print(result.group(2))

【運(yùn)行結(jié)果】

<re.Match object; span=(0, 19), match='Hello_World,123 456'>
Hello_World,123 456
(0, 19)
123
456

這樣通過(guò)加括號(hào)的形式,將字符串中的數(shù)字匹配出來(lái)。

通用匹配符

.* 其中.用來(lái)匹配任意字符(除換行符),*代表前面出現(xiàn)的字符無(wú)限次。因此之前的匹配形式可以寫為:

import re
content = 'Hello_World,123 456'
result = re.match('^Hello\.*456$',content)
print(result.group())

【運(yùn)行結(jié)果】

Hello_World,123 456

貪婪匹配和非貪婪匹配

.*匹配是貪婪匹配

.*?是非貪婪匹配

二者的主要區(qū)別是,貪婪匹配盡可能多的去匹配字符,而非貪婪匹配是盡可能少的匹配字符。下列代碼能夠更直觀的了解二者之間的區(qū)別

import re
content = 'number 12345678 test'
result_1 = re.match('^number.*(\d+).*test$',content)
print('貪婪匹配得到的數(shù)字:' + result_1.group(1))
result_2 = re.match('^number.*?(\d+).*test$',content)
print('非貪婪匹配得到的數(shù)字:' + result_2.group(1))

【運(yùn)行結(jié)果】

貪婪匹配得到的數(shù)字:8
非貪婪匹配得到的數(shù)字:12345678

大家會(huì)有這樣一個(gè)疑問(wèn)為什么貪婪匹配得到的數(shù)字少,而非貪婪匹配得到的多,這與前面講的不太符合啊。

注意,在匹配的時(shí)候,貪婪匹配是盡可能多的去匹配字符,因此.*就匹配的是' 1234567‘,只留下8給\d+匹配,非貪婪匹配是盡可能少的匹配字符,故.*?匹配的是' ',留下12345678給\d+匹配,就會(huì)得到上述結(jié)果。

修飾符

修飾符 作用
re.I 忽略大小寫進(jìn)行匹配
re.L 做本地化識(shí)別匹配
re.M 多行匹配,影響^和$
re.S 使.匹配包含換行符在內(nèi)的所有字符
re.U 根據(jù)Unicode字符集解析字符
re.X 更加靈活的編寫正則表達(dá)式

轉(zhuǎn)義匹配

匹配特殊字符時(shí),在其前面加反斜線(\)完成轉(zhuǎn)義匹配。

2、search()

在匹配時(shí)會(huì)掃描整個(gè)字符串,然后返回第一個(gè)成功匹配的結(jié)果。如果將整個(gè)字符串搜索完了之后還是沒(méi)有匹配到,則返回None。

3、findall()

與search()不同的是,findall()方法是將返回所有符合正則表達(dá)式匹配的內(nèi)容。返回結(jié)果是一個(gè)列表,列表中的每個(gè)元素都是元組類型。

4、sub()

修改文本內(nèi)容,原理是對(duì)要修改的內(nèi)容進(jìn)行替換。

import re
temp = "abcdef123ghi456"
temp = re.sub("\d+","",temp)
print(temp)

【運(yùn)行結(jié)果】

abcdefghi

sub()中的參數(shù)分析,第一個(gè)參數(shù)是正則表達(dá)式匹配要更改的內(nèi)容,第二個(gè)參數(shù)是使用該參數(shù)內(nèi)容進(jìn)行替換,第三個(gè)參數(shù)是要更改的字符串。

5、compile()

將正則字符串編譯成正則表達(dá)式對(duì)象,以便在后面的匹配中進(jìn)行復(fù)用。

到此這篇關(guān)于python網(wǎng)絡(luò)爬蟲(chóng)精解之正則表達(dá)式的使用說(shuō)明的文章就介紹到這了,更多相關(guān)python 正則表達(dá)式內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python3列表刪除的三種方式實(shí)現(xiàn)

    Python3列表刪除的三種方式實(shí)現(xiàn)

    本文主要介紹了Python3列表刪除的三種方式實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2022-08-08
  • CentOS7.3編譯安裝Python3.6.2的方法

    CentOS7.3編譯安裝Python3.6.2的方法

    本篇文章主要介紹了CentOS7.3編譯安裝Python3.6.2的方法,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2018-01-01
  • python 利用turtle庫(kù)繪制笑臉和哭臉的例子

    python 利用turtle庫(kù)繪制笑臉和哭臉的例子

    今天小編就為大家分享一篇python 利用turtle庫(kù)繪制笑臉和哭臉的例子,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-11-11
  • python 用戶交互輸入input的4種用法詳解

    python 用戶交互輸入input的4種用法詳解

    這篇文章主要介紹了python 用戶交互輸入input的4種用法詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-09-09
  • TensorFlow通過(guò)文件名/文件夾名獲取標(biāo)簽,并加入隊(duì)列的實(shí)現(xiàn)

    TensorFlow通過(guò)文件名/文件夾名獲取標(biāo)簽,并加入隊(duì)列的實(shí)現(xiàn)

    今天小編就為大家分享一篇TensorFlow通過(guò)文件名/文件夾名獲取標(biāo)簽,并加入隊(duì)列的實(shí)現(xiàn),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-02-02
  • python scipy 稀疏矩陣的使用說(shuō)明

    python scipy 稀疏矩陣的使用說(shuō)明

    這篇文章主要介紹了python scipy 稀疏矩陣的使用說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-05-05
  • python 3利用Dlib 19.7實(shí)現(xiàn)攝像頭人臉檢測(cè)特征點(diǎn)標(biāo)定

    python 3利用Dlib 19.7實(shí)現(xiàn)攝像頭人臉檢測(cè)特征點(diǎn)標(biāo)定

    這篇文章主要為大家詳細(xì)介紹了python 3利用Dlib 19.7實(shí)現(xiàn)攝像頭人臉檢測(cè)特征點(diǎn)標(biāo)定,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-02-02
  • Python基礎(chǔ)語(yǔ)法之容器詳解

    Python基礎(chǔ)語(yǔ)法之容器詳解

    這篇文章主要介紹了Python基礎(chǔ)語(yǔ)法之容器的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下,希望能夠給你帶來(lái)幫助
    2021-09-09
  • Django ORM 查詢表中某列字段值的方法

    Django ORM 查詢表中某列字段值的方法

    這篇文章主要介紹了Django ORM 查詢表中某列字段值的方法,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-04-04
  • python中正則表達(dá)式findall的用法實(shí)例

    python中正則表達(dá)式findall的用法實(shí)例

    在寫著自動(dòng)化測(cè)試的腳本時(shí)重新復(fù)習(xí)了一下正則表達(dá)式findall()方法,下面這篇文章主要給大家介紹了關(guān)于python中正則表達(dá)式findall用法的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-09-09

最新評(píng)論