Python 正則表達式入門(中級篇)
初級篇鏈接:http://www.dbjr.com.cn/article/99372.htm
上一篇我們說在這一篇里,我們會介紹子表達式,向前向后查找,回溯引用。到這一篇開始前除了回溯引用在一些場合不可替代以外,大部分情況下的正則表達式你應(yīng)該都會寫了。
1.子表達式
子表達式的概念特別好理解。其實它就是將幾個字符的組合形式看做一個大的“字符”。不好理解?舉個栗子:我們要匹配類似IP地址這種形式的字符(暫且不考慮數(shù)值范圍的合理性,這個留作學(xué)完之后的思考題吧)。形如192.168.1.1這樣的地址我們怎么寫表達式呢?
答案一 \d+.?\d+.?\d+.?\d+
不好,一個是太繁瑣,另一個是連位數(shù)都控制不了
答案二 \d+{1,3}.?\d+{1,3}.?\d+{1,3}.?\d+{1,3}
一般般,復(fù)雜但是起碼能把位數(shù)控制在合理范圍
答案三 (\d+{1,3}\.){3}\d+{1,3}\.
利用子表達式,將123.這種數(shù)字加小數(shù)點看做一個整體字符,對其規(guī)定重復(fù)匹配的次數(shù),既簡潔,效果又好。所以只要你將幾個字符組合用圓括號括起來,那么你就可以把一個圓括號內(nèi)的內(nèi)容當(dāng)做一個字符,外面可以加我們之前講過的所有元字符來控制匹配。
2.向前向后查找
現(xiàn)在,我們終于來到了向前向后查找這一塊。為什么說終于來到這了呢?還記得我們在初級篇最開始的例子嗎?
假如你在寫一個爬蟲,你得到了一個網(wǎng)頁的HTML源碼。其中有一段html
<html><body><h1>hello world</h1></body></html>
你想要把這個hello world提取出來
import re key = r"<html><body><h1>hello world</h1></body></html>"#這段是你要匹配的文本 p1 = r"(?<=<h1>).+?(?=</h1>)"#這是我們寫的正則表達式規(guī)則,你現(xiàn)在可以不理解啥意思 pattern1 = re.compile(p1)#我們在編譯這段正則表達式 matcher1 = re.search(pattern1,key)#在源文本中搜索符合正則表達式的部分 print matcher1.group(0)#打印出來
這個正則表達式
p1 = r"(?<=<h1>).+?(?=<h1>)"
看到(?<=<h1>)
和 (?=<h1>)
了嗎?第一個?<=表示在被匹配字符前必須得有<h1>,后面的?=表示被匹配字符后必須有<h1>
簡單來說,就是你要匹配的字符是XX,但必須滿足形式是AXXB這樣的字符串,那么你就可以這樣寫正則表達式
p = r"(?<=A)XX(?=B)"
匹配到的字符串就是XX。并且,向前查找向后查找不需要必須同時出現(xiàn)。如果你愿意,可以只寫滿足一個條件。
所以你也不需要記住哪個是向前查找,哪個是向后查找。只要記住?<=后面跟著的是前綴要求,?=后面跟的是后綴要求。
本質(zhì)上來說,向前查找和向后查找其實是匹配整個字符串,即AXXB,但返回時僅僅返回一個XX。也就是說,如果你愿意,完全可以避開向前向后查找的方式,直接匹配帶有前后綴的字符串,然后做字符串切片處理。
3.回溯引用
不同于前面的向前向后查找,這一條有時候你未必繞的過去。在有些情況下,你還必須得用到回溯引用,所以你如果想擁有在實際應(yīng)用中使用正則表達式,回溯引用是你應(yīng)該了解和掌握的。
我們還是從最開始的例子來說。
你原本要匹配<h1></h1>之間的內(nèi)容,現(xiàn)在你知道HTML有多級標題,你想把每一級的標題內(nèi)容都提取出來。你也許會這樣寫:
p = r"<h[1-6]>.*?</h[1-6]>"
這樣一來,你就可以將HTML頁面內(nèi)所有的標題內(nèi)容全部匹配出來。即<h1></h1>到<h6></h6>的內(nèi)容都可以被提取出來。但是我們之前說過,寫正則表達式困難的不是匹配到想要的內(nèi)容,而是盡可能的不匹配到不想要的內(nèi)容。在這個例子中,很有可能你就會被下面這樣的用例玩壞。
比方說
<h1>hello world</h3>
發(fā)現(xiàn)后面的</h3>了嗎?我們不管是怎么寫出來這樣的標題的,但實實在在的是我們的正則表達式同樣會把這里面的hello world匹配出來。這時候就是回溯引用的重要作用。下面就是一個示例:
import re key = r"<h1>hello world</h3>" p1 = r"<h([1-6])>.*?</h\1>" pattern1 = re.compile(p1) m1 = re.search(pattern1,key) print m1.group(0)#這里是會報錯的,因為匹配不到,你如果將源字符串改成</h1>
結(jié)尾就能看出效果
看到\1了嗎?原本那個位置應(yīng)該是[1-6],但是我們寫的是\1,我們之前說過,轉(zhuǎn)義符\干的活就是把特殊的字符轉(zhuǎn)成一般的字符,把一般的字符轉(zhuǎn)成特殊字符。普普通通的數(shù)字1被轉(zhuǎn)移成什么了呢?在這里1表示第一個子表達式,也就是說,它是動態(tài)的,是隨著前面第一個子表達式的匹配到的東西而變化的。比方說前面的子表達式內(nèi)是[1-6],在實際字符串中找到了1,那么后面的\1就是1,如果前面的子表達式在實際字符串中找到了2,那么后面的\1就是2。
類似的,\2,\3,....就代表第二個第三個子表達式。
所以回溯引用是正則表達式內(nèi)的一個“動態(tài)”的正則表達式,讓你根據(jù)實際的情況變化進行匹配。
中級篇就到這里,其實正則表達式還有很多細節(jié)還沒有寫出來,也有很多元字符我沒有交代,但掌握了綱要,懂得原理之后剩下的就類似于查表構(gòu)造這種活了。
建議看到這的朋友看看《正則表達式必知必會》,初級篇和這篇中有幾個例子也是取材于此。
以上就是本文的全部內(nèi)容,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,同時也希望多多支持腳本之家!
- Python 正則表達式入門(初級篇)
- python 根據(jù)正則表達式提取指定的內(nèi)容實例詳解
- Python 正則表達式的高級用法
- Python 爬蟲學(xué)習(xí)筆記之正則表達式
- Python正則表達式使用經(jīng)典實例
- python 正則表達式學(xué)習(xí)小結(jié)
- Python匹配中文的正則表達式
- Python for Informatics 第11章 正則表達式(一)
- Python基礎(chǔ)教程之正則表達式基本語法以及re模塊
- python正則表達式之作業(yè)計算器
- 玩轉(zhuǎn)python爬蟲之正則表達式
- Python正則表達式之基礎(chǔ)篇
- Python的爬蟲包Beautiful Soup中用正則表達式來搜索
相關(guān)文章
python操作微信自動發(fā)消息的實現(xiàn)(微信聊天機器人)
這篇文章主要介紹了python操作微信自動發(fā)消息(微信聊天機器人),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-07-07詳談python3中用for循環(huán)刪除列表中元素的坑
下面小編就為大家分享一篇詳談python3中用for循環(huán)刪除列表中元素的坑,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-04-04python使用在線API查詢IP對應(yīng)的地理位置信息實例
這篇文章主要介紹了python使用在線API查詢IP對應(yīng)的地理位置信息實例,需要的朋友可以參考下2014-06-06