欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

淺談Python中的正則表達(dá)式

 更新時(shí)間:2021年06月28日 14:21:57   作者:Mintimate  
正則表達(dá)式廣泛用于與文字、字符串的格式化,放到Python里使用,再合適不過(guò).尤其是在編寫(xiě)爬蟲(chóng)時(shí),用正則表達(dá)式匹配URL、匹配IP等,正則表達(dá)式都是一個(gè)簡(jiǎn)單、高效的選擇,需要的朋友可以參考下

Python里的正則表達(dá)式

Python里的正則表達(dá)式,無(wú)需下載外部模塊,只需要引入自帶模塊re

import re

官方re模塊文檔: https://docs.python.org/zh-cn/3.9/library/re.html

同時(shí),Python的正則表達(dá)式是PCRE標(biāo)準(zhǔn)的,相較于廣泛應(yīng)用在Unix上的POSIX標(biāo)準(zhǔn),還是有些區(qū)別的(主要是簡(jiǎn)化)

基本方法

觀察re源碼,其主要的接口方法有:

  • match(…):從字符串的起始位置匹配一個(gè)模式,如果無(wú)法匹配成功,則match()就返回none
  • fullmatch(…):是match函數(shù)的完全匹配(從字符串開(kāi)頭到結(jié)尾)版本
  • search(…):掃描整個(gè)字符串并(默認(rèn))返回第一個(gè)成功的匹配
  • sub(…):用于替換字符串中的匹配項(xiàng)
  • subn(…):和sub(…)類(lèi)似,但返回值多一個(gè)替換次數(shù)
  • split(…):分割字符串,返回列表形式f
  • indall(…):在字符串中找到正則表達(dá)式所匹配的所有子串,并返回一個(gè)列表形式,如果沒(méi)有找到匹配的,則返回空列表。finditer(…):和 findall 類(lèi)似,在字符串中找到正則表達(dá)式所匹配的所有子串,并把它們作為一個(gè)迭代器返回
  • compile(…):用于編譯正則表達(dá)式,生成一個(gè)正則表達(dá)式( Pattern )對(duì)象,供 match() 和 search() 這兩個(gè)函數(shù)使用
  • purge(…):用于清除正則表達(dá)式緩存

其中,本文主要會(huì)介紹的方法為:match(...)、search(...)、findall(...)spilt(...)。不過(guò),方法都類(lèi)似,會(huì)這些方法,剩下的也大同小異。

元字符與預(yù)定義字符集

我認(rèn)為,元字符算和預(yù)定義字符集是正則表達(dá)式的核心內(nèi)容了。

預(yù)定義字符集:

預(yù)定義字符 說(shuō)明
\w 匹配下劃線“”或任何字母(a-zA-Z)與數(shù)字(0-9)等價(jià)于a-zA-Z0-9
\W 與\w相反,匹配特殊字符等價(jià)于**^a-zA-Z0-9_**
\s 匹配任意的空白字符,等價(jià)于**<空格>\r\n\f\v**
\S 與\s相反,匹配任意非空白字符的字符,等價(jià)于**^\s**
\d 匹配任意數(shù)字,等價(jià)于0-9
\D 與\d相反,匹配任意非數(shù)字的字符,等價(jià)于**^\d**
\b 匹配單詞的邊界
\B 與\b相反,匹配不出現(xiàn)在單詞邊界的元素
\A 僅匹配字符串開(kāi)頭,等價(jià)于^
\Z 僅匹配字符串結(jié)尾,等價(jià)于$

元字符:

元字符 說(shuō)明
. 匹配任何一個(gè)字符(除換行符**\n**除外)
^ 脫字符,匹配行的開(kāi)始
$ 美元符,匹配行的結(jié)束
| 連接多個(gè)可選元素,匹配表達(dá)式中出現(xiàn)的任意子項(xiàng)
[] 字符組,匹配其中的出現(xiàn)的任意一個(gè)字符
- 連字符,表示范圍,如“1-5”等價(jià)于“1、2、3、4、5”
? 匹配其前導(dǎo)元素0次或1次
* 匹配其前導(dǎo)元素0次或多次
+ 匹配其前導(dǎo)元素1次或多次
{n}/{m,n} 匹配其前導(dǎo)元素n次/匹配其前導(dǎo)元素m~n次
() 在模式中劃分出子模式,并保存子模式的匹配結(jié)果

一般來(lái)說(shuō),使用+?、*、{n}{n,}{n,m}時(shí),即激活正則表達(dá)式的貪婪模式??梢栽谄浜蠹尤?code>?來(lái)取消貪婪模式。

貪婪模式

一般來(lái)見(jiàn),重復(fù)多次匹配就是貪婪模式,也就是盡可能匹配多個(gè)字符。

比如:

import re

lineOne = "Who is the Mintimate"
# 貪婪模式
print(re.findall(r'\w+',lineOne))
# 非貪婪模式
print(re.findall(r'\w',lineOne))
print(re.findall(r'\w+?',lineOne))

輸出:

['Who', 'is', 'the', 'Mintimate']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']
['W', 'h', 'o', 'i', 's', 't', 'h', 'e', 'M', 'i', 'n', 't', 'i', 'm', 'a', 't', 'e']

可以看到,使用**?**來(lái)激活非貪婪模式,基本是讓多次匹配無(wú)效化。

捕獲與非捕獲括號(hào)

之所以捕獲與非捕獲括號(hào)單獨(dú)出來(lái)講,其實(shí)是我當(dāng)時(shí)學(xué)習(xí)正則時(shí)候,這邊卡了很久。

  • 捕獲括號(hào):()
  • 非捕獲括號(hào):(?:)

捕獲括號(hào)其實(shí)就是代碼里的優(yōu)先級(jí)一樣,比如:

2*(2+3)=10

之所以,我們會(huì)先算2+3,是因?yàn)橛?*()的存在。正則里也是,如果存在()**,則會(huì)優(yōu)先捕獲()內(nèi)的內(nèi)容:

import re

lineOne = "Who is Mintimate?"
# 未使用捕獲括號(hào)
print(re.findall(r'Mintimate',lineOne))
# 使用捕獲括號(hào)
print(re.findall(r'M(intimate)',lineOne))
# 使用非捕獲括號(hào)
print(re.findall(r'M(?:intimate)',lineOne))

輸出結(jié)果:

['Mintimate']
['intimate']
['Mintimate']

而非捕獲括號(hào)主要與|同時(shí)使用:

import re

lineOne = "This is the Mintimate,not the Minimen?"
print(re.findall(r'M(?:intimate|inimen)',lineOne))

輸出結(jié)果:

['Mintimate', 'Minimen']

正則匹配(判斷目標(biāo)格式)

主要講解Python下的幾個(gè)方法使用方法。

match匹配

match(…)即:

re.match(pattern, string, flags=0)

參數(shù)的具體含義如下:

  • pattern:表示需要傳入的正則表達(dá)式。
  • string:表示待匹配的目標(biāo)文本。
  • flags:表示使用的匹配模式。如:是否區(qū)分大小寫(xiě),多行匹配等等。可省略,默認(rèn)為0

使用match進(jìn)行正則匹配,可以方便我們對(duì)字符串內(nèi)類(lèi)型的判斷,如:是否為純數(shù)字或第一位數(shù)否為數(shù)字

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.match(r"\d", lineOne))
print(re.match(r"\d+", lineOne))
print("===")
print(re.match(r"\d", lineTwo))
print(re.match(r"\d+", lineTwo))

輸出結(jié)果:

<re.Match object; span=(0, 1), match='7'>
<re.Match object; span=(0, 7), match='7704194'>
===
None
None

其中,\d為匹配0-9的數(shù)字類(lèi)型,而+是匹配出現(xiàn)1次或多次。

正則搜索(提取/分組字符)

正則搜索,常用的是search和findall方法了,方法體均一樣:

re.search(pattern, string, flags=0)
re.findall(pattern, string, flags=0)

search和march類(lèi)似,均是匹配字符串內(nèi)容,不符合返回None。但是主要區(qū)別:

  • re.match() 從第一個(gè)字符開(kāi)始找, 如果第一個(gè)字符就不匹配就返回None, 不繼續(xù)匹配. 用于判斷字符串開(kāi)頭或整個(gè)字符串是否匹配,速度快。
  • re.search() 會(huì)整個(gè)字符串查找,直到找到一個(gè)匹配。

代碼中更形象:

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
# 使用match搜索純數(shù)字字符串
print(re.match(r"\d", lineOne))
# 使用search搜索純數(shù)字字符串
print(re.search(r"\d", lineOne))
# 使用match搜索復(fù)合字符串
print(re.match(r"\d", lineTwo))
# 使用search搜索復(fù)合字符串
print(re.search(r"\d", lineTwo))

其輸出結(jié)果:

<re.Match object; span=(0, 1), match='7'>
<re.Match object; span=(0, 1), match='7'>
None
<re.Match object; span=(31, 32), match='7'>

而findall,在上match和search的前提下,進(jìn)一步封裝。相對(duì)于強(qiáng)化版的match和search

import re

lineOne = "7704194"
lineTwo = "My UID in Tencent Community is:7704194"
print(re.findall(r'\d',lineOne))
print(re.findall(r"\d",lineTwo))

輸出結(jié)果:

['7', '7', '0', '4', '1', '9', '4']
['7', '7', '0', '4', '1', '9', '4']

而如果你想完成提?。?/p>

print(re.findall(r"\d+",lineTwo))

輸出:

['7704194']

方便在數(shù)據(jù)處理時(shí),快速提取連續(xù)數(shù)字╮( ̄▽ ̄"")╭。

操作實(shí)例

單單看文檔,總是不實(shí)際。這邊我演示幾個(gè)正則表達(dá)式的實(shí)例(我根據(jù)我自己使用環(huán)境所寫(xiě),可能在其他特殊環(huán)境有問(wèn)題

URL去參

在寫(xiě)爬蟲(chóng)時(shí)候,有時(shí)候得到的URL是帶標(biāo)簽(#)或者Get請(qǐng)求(?id=*)的,但是有時(shí)候我們需要去除這些參數(shù),得到純凈的URL地址,這個(gè)時(shí)候可以用正則表達(dá)式:

lineOne = "https://www.mintimate.cn#mintimate"
lineTwo = "https://www.mintimate.cn?user=mintimate"
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineOne))
print(re.findall(r'https?://(?:[\w]|[/\.])*',lineTwo))

效果:

['https://www.mintimate.cn']
['https://www.mintimate.cn']

這里主要的細(xì)節(jié):

  • https?:匹配http或https
  • (?😃:非捕獲括號(hào),用于和后續(xù)|進(jìn)行配合

IPv4匹配

用正則匹配IPv4就比較復(fù)雜了,我是這樣寫(xiě)的:

import re

lineOne = "192.168.1.1"
lineTwo="這不是IPv4嗷"
isIPv4=re.compile(r'((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})){3}')
print(isIPv4.search(lineOne))
print(isIPv4.search(lineTwo))

輸出結(jié)果為:

<re.Match object; span=(0, 11), match='192.168.1.1'>
None

解釋一下:

  • 末尾的{3},代表前面(\.((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2}))重復(fù)三次匹配,
  • 而前面的((2(5[0-5]|[0-4]\d))|[0-1]?\d{1,2})我們可以拆分為兩部分,(2(5[0-5]|[0-4]\d))和0-1?\d{1,2}:前者是匹配首位為2開(kāi)頭、第二位為1到5或1到4、最后一位為0到9;后者是匹配第一位為0或1,且?代表可以不存在這一項(xiàng),后兩位為兩位0-9的數(shù)字。

效率問(wèn)題

使用正則表達(dá)式,很大程度是為了精簡(jiǎn)代碼,但是存在一下問(wèn)題:

  • 代碼可讀性降低:普通的匹配數(shù)字還好,但是如果都像IPv4這樣的,一定程度可讀性就降低了,維護(hù)成本高(雖然后期一般不回去改)
  • 解析時(shí)間長(zhǎng):這個(gè)還是要看具體代碼,但是總的來(lái)說(shuō):貪婪模式相比懶惰模式以及獨(dú)占模式有一個(gè)回溯過(guò)程,消耗資源會(huì)更多。

解決方案:

  • 一條正則表達(dá)式規(guī)則如果運(yùn)用上百次,可以使用compile()方法進(jìn)行預(yù)先加載。
  • 減少使用貪婪模式。

總結(jié)

正則表達(dá)式是一個(gè)很重要的工具,尤其是在Python數(shù)據(jù)處理時(shí),能高效處理問(wèn)題事件。看完這篇文章后,應(yīng)該對(duì)正則表達(dá)式不在陌生,感興趣可以自己寫(xiě)個(gè)正則規(guī)則,如:強(qiáng)密碼判斷、IPv6的判斷等。

另外,因?yàn)槠?,更多Python內(nèi)的細(xì)則,可以參考官方文檔:

https://docs.python.org/zh-cn/3.9/library/re.html

到此這篇關(guān)于淺談Python中的正則表達(dá)式的文章就介紹到這了,更多相關(guān)Python正則表達(dá)式內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python多線程死鎖現(xiàn)象及解決方法

    python多線程死鎖現(xiàn)象及解決方法

    這篇文章主要為大家介紹了python多線程死鎖現(xiàn)象與解決方法示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-07-07
  • Pycharm安裝第三方庫(kù)失敗解決方案

    Pycharm安裝第三方庫(kù)失敗解決方案

    這篇文章主要介紹了Pycharm安裝第三方庫(kù)失敗解決方案,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-11-11
  • 什么是python的函數(shù)體

    什么是python的函數(shù)體

    在本篇文章里小編給大家分享的是一篇關(guān)于python函數(shù)體的基礎(chǔ)知識(shí)點(diǎn),需要的朋友們可以學(xué)習(xí)下。
    2020-06-06
  • graphviz 最新安裝教程適用初學(xué)者

    graphviz 最新安裝教程適用初學(xué)者

    Graphviz 是一個(gè)自動(dòng)排版的作圖軟件,可以生成 png pdf 等格式,這篇文章主要介紹了graphviz 2022最新安裝教程適用初學(xué)者,需要的朋友可以參考下
    2023-02-02
  • Python對(duì)數(shù)據(jù)庫(kù)操作

    Python對(duì)數(shù)據(jù)庫(kù)操作

    本文給大家介紹Windows、Linux下安裝MySQL-python,及安裝過(guò)程中常遇到的問(wèn)題,該如何解決,非常具有參考借鑒價(jià)值,特此分享供大家參考
    2016-03-03
  • 使用pytorch 篩選出一定范圍的值

    使用pytorch 篩選出一定范圍的值

    這篇文章主要介紹了使用pytorch 篩選出一定范圍的值,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-06-06
  • Python自動(dòng)化爬取天眼查數(shù)據(jù)的實(shí)現(xiàn)

    Python自動(dòng)化爬取天眼查數(shù)據(jù)的實(shí)現(xiàn)

    本文將結(jié)合實(shí)例代碼,介紹Python自動(dòng)化爬取天眼查數(shù)據(jù)的實(shí)現(xiàn),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-06-06
  • python軟件測(cè)試Jmeter性能測(cè)試JDBC Request(結(jié)合數(shù)據(jù)庫(kù))的使用詳解

    python軟件測(cè)試Jmeter性能測(cè)試JDBC Request(結(jié)合數(shù)據(jù)庫(kù))的使用詳解

    這篇文章主要介紹了python軟件測(cè)試Jmeter性能測(cè)試JDBC Request(結(jié)合數(shù)據(jù)庫(kù))的使用詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-01-01
  • 使用matplotlib創(chuàng)建Gif動(dòng)圖的實(shí)現(xiàn)

    使用matplotlib創(chuàng)建Gif動(dòng)圖的實(shí)現(xiàn)

    本文主要介紹了使用matplotlib創(chuàng)建Gif動(dòng)圖的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2022-04-04
  • python實(shí)現(xiàn)微信小程序用戶登錄、模板推送

    python實(shí)現(xiàn)微信小程序用戶登錄、模板推送

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)微信小程序用戶登錄、模板推送,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2019-08-08

最新評(píng)論