Python 正則表達(dá)式入門(初級(jí)篇)
引子
首先說(shuō) 正則表達(dá)式是什么?
正則表達(dá)式,又稱正規(guī)表示式、正規(guī)表示法、正規(guī)表達(dá)式、規(guī)則表達(dá)式、常規(guī)表示法(英語(yǔ):Regular Expression,在代碼中常簡(jiǎn)寫為regex、regexp或RE),計(jì)算機(jī)科學(xué)的一個(gè)概念。正則表達(dá)式使用單個(gè)字符串來(lái)描述、匹配一系列匹配某個(gè)句法規(guī)則的字符串。在很多文本編輯器里,正則表達(dá)式通常被用來(lái)檢索、替換那些匹配某個(gè)模式的文本。
許多程序設(shè)計(jì)語(yǔ)言都支持利用正則表達(dá)式進(jìn)行字符串操作。例如,在Perl中就內(nèi)建了一個(gè)功能強(qiáng)大的正則表達(dá)式引擎。正則表達(dá)式這個(gè)概念最初是由Unix中的工具軟件(例如sed和grep)普及開的。正則表達(dá)式通??s寫成“regex”,單數(shù)有regexp、regex,復(fù)數(shù)有regexps、regexes、regexen。
引用自維基百科https://zh.wikipedia.org/wiki/%E6%AD%A3%E5%88%99%E8%A1%A8%E8%BE%BE%E5%BC%8F
定義是定義,太正經(jīng)了就沒(méi)法用了。我們來(lái)舉個(gè)栗子:假如你在寫一個(gè)爬蟲,你得到了
一個(gè)網(wǎng)頁(yè)的HTML源碼。其中有一段
<html><body><h1>hello world<h1></body></html>
你想要把這個(gè)hello world提取出來(lái),但你這時(shí)如果只會(huì)python 的字符串處理,那么第一反應(yīng)可能是
s = <html><body><h1>hello world<h1></body></html> start_index = s.find('<h1>')
然后從這個(gè)位置向下查找到下一個(gè)<h1>出現(xiàn)這樣做未嘗不可,但是很麻煩不是嗎。需要考慮多個(gè)標(biāo)簽,一不留神就多匹配到東西了,而如果想要非常準(zhǔn)確的匹配到,又得多加循環(huán)判斷,效率太低。
這時(shí)候,正則表達(dá)式就是首選的幫手。
干貨開始
入門級(jí)別
接著說(shuō)我們剛才那個(gè)例子。我們?nèi)绻谜齽t處理這個(gè)表達(dá)式要怎么做呢?
import re key = r"<html><body><h1>hello world<h1></body></html>"#這段是你要匹配的文本 p1 = r"(?<=<h1>).+?(?=<h1>)"#這是我們寫的正則表達(dá)式規(guī)則,你現(xiàn)在可以不理解啥意思 pattern1 = re.compile(p1)#我們?cè)诰幾g這段正則表達(dá)式 matcher1 = re.search(pattern1,key)#在源文本中搜索符合正則表達(dá)式的部分 print matcher1.group(0)#打印出來(lái)
你可以嘗試運(yùn)行上面的代碼,看看是不是和我們想象的一樣(博主是在python2.7環(huán)境下)發(fā)現(xiàn)代碼挺少挺簡(jiǎn)單?往下看。而且正則表達(dá)式實(shí)際上要比看起來(lái)的那種奇形怪狀要簡(jiǎn)單得多。
首先,從最基礎(chǔ)的正則表達(dá)式說(shuō)起。
假設(shè)我們的想法是把一個(gè)字符串中的所有"python"給匹配到。我們?cè)囈辉囋趺醋?/p>
import re key = r"javapythonhtmlvhdl"#這是源文本 p1 = r"python"#這是我們寫的正則表達(dá)式 pattern1 = re.compile(p1)#同樣是編譯 matcher1 = re.search(pattern1,key)#同樣是查詢 print matcher1.group(0)
看完這段代碼,你是不是覺(jué)得:臥槽?這就是正則表達(dá)式?直接寫上去就行?
確實(shí),正則表達(dá)式并不像它表面上那么奇葩,如果不是我們故意改變一些符號(hào)的含義時(shí),你看到的就是想要匹配的。
所以,先把大腦清空,先認(rèn)為正則表達(dá)式就是和想要匹配的字符串長(zhǎng)得一樣。在之后的練習(xí)中我們會(huì)逐步進(jìn)化
初級(jí)
0.無(wú)論是python還是正則表達(dá)式都是區(qū)分大小寫的,所以當(dāng)你在上面那個(gè)例子上把"python"換成了"Python",那就匹配不到你心愛(ài)的python了。
1.重新回到第一個(gè)例子中那個(gè)<h1>hello world<h1>
匹配。假如我像這么寫,會(huì)怎么樣?
import re key = r"<h1>hello world<h1>"#源文本 p1 = r"<h1>.+<h1>"#我們寫的正則表達(dá)式,下面會(huì)將為什么 pattern1 = re.compile(p1) print pattern1.findall(key)#發(fā)沒(méi)發(fā)現(xiàn),我怎么寫成findall了?咋變了呢?
有了入門級(jí)的經(jīng)驗(yàn),我們知道那兩個(gè)<h1>
就是普普通通的字符,但是中間的是什么鬼?
.
字符在正則表達(dá)式代表著可以代表任何一個(gè)字符(包括它本身)
findall返回的是所有符合要求的元素列表,包括僅有一個(gè)元素時(shí),它還是給你返回的列表。
機(jī)智如你可能會(huì)突然問(wèn):那我如果就只是想匹配"."呢?結(jié)果啥都給我返回了咋整?在正則表達(dá)式中有一個(gè)字符\,其實(shí)如果你編程經(jīng)驗(yàn)較多的話,你就會(huì)發(fā)現(xiàn)這是好多地方的“轉(zhuǎn)義符”。在正則表達(dá)式里,這個(gè)符號(hào)通常用來(lái)把特殊的符號(hào)轉(zhuǎn)成普通的,把普通的轉(zhuǎn)成特殊的23333(并不是特殊的“2333”,寫完才發(fā)現(xiàn)會(huì)不會(huì)有腦洞大的想歪了)。
舉個(gè)栗子,你真的想匹配"chuxiuhong@hit.edu.cn"這個(gè)郵箱(我的郵箱),你可以把正則表達(dá)式寫成下面這個(gè)樣子:
import re key = r"afiouwehrfuichuxiuhong@hit.edu.cnaskdjhfiosueh" p1 = r"chuxiuhong@hit\.edu\.cn" pattern1 = re.compile(p1) print pattern1.findall(key)
發(fā)現(xiàn)了吧,我們?cè)?code>.的前面加上了轉(zhuǎn)義符\
,但是并不是代表匹配“\.”的意思,而是只匹配“.”的意思!
不知道你細(xì)不細(xì)心,有沒(méi)有發(fā)現(xiàn)我們第一次用.
時(shí),后面還跟了一個(gè)+
?那這個(gè)加號(hào)是干什么的呢?
其實(shí)不難想,我們說(shuō)了“.
字符在正則表達(dá)式代表著可以代表任何一個(gè)字符(包括它本身)”,但是"hello world"可不是一個(gè)字符啊。
+的作用是將前面一個(gè)字符或一個(gè)子表達(dá)式重復(fù)一遍或者多遍。
比方說(shuō)表達(dá)式“ab+”那么它能匹配到“abbbbb”,但是不能匹配到"a",它要求你必須得有個(gè)b,多了不限,少了不行。你如果問(wèn)我有沒(méi)有那種“有沒(méi)有都行,有多少都行的表達(dá)方式”,回答是有的。
*跟在其他符號(hào)后面表達(dá)可以匹配到它0次或多次
比方說(shuō)我們?cè)谕跞~內(nèi)遇到了鏈接,可能既有http://開頭的,又有https://開頭的,我們?cè)趺刺幚恚?/p>
import re key = r"http://www.nsfbuhwe.com and https://www.auhfisna.com"#胡編亂造的網(wǎng)址,別在意 p1 = r"https*://"#看那個(gè)星號(hào)! pattern1 = re.compile(p1) print pattern1.findall(key)
輸出
['http://', 'https://']
2.比方說(shuō)我們有這么一個(gè)字符串"cat hat mat qat",你會(huì)發(fā)現(xiàn)前面三個(gè)是實(shí)際的單詞,最后那個(gè)是我胡編亂造的(上百度查完是昆士蘭英語(yǔ)學(xué)院的縮寫= =)。如果你本來(lái)就知道"at"前面是c、h、m其中之一時(shí)這才構(gòu)成單詞,你想把這樣的匹配出來(lái)。根據(jù)已經(jīng)學(xué)到的知識(shí)是不是會(huì)想到寫出來(lái)三個(gè)正則表達(dá)式進(jìn)行匹配?實(shí)際上不需要。因?yàn)橛幸环N多字符匹方式
[]
代表匹配里面的字符中的任意一個(gè)
還是舉個(gè)栗子,我們發(fā)現(xiàn)啊,有的程序員比較過(guò)分,,在<html></html>
這對(duì)標(biāo)簽上,大小寫混用,老害得我們抓不到想要的東西,我們?cè)撛趺磻?yīng)對(duì)?是寫16*16種正則表達(dá)式挨個(gè)匹配?no
import re key = r"lalala<hTml>hello</Html>heiheihei" p1 = r"<[Hh][Tt][Mm][Ll]>.+?</[Hh][Tt][Mm][Ll]>" pattern1 = re.compile(p1) print pattern1.findall(key)
輸出
['<hTml>hello</Html>']
我們既然有了范圍性的匹配,自然有范圍性的排除。
[^]
代表除了內(nèi)部包含的字符以外都能匹配
還是cat,hat,mat,qat這個(gè)例子,我們想匹配除了qat以外的,那么就應(yīng)該這么寫:
import re key = r"mat cat hat pat" p1 = r"[^p]at"#這代表除了p以外都匹配 pattern1 = re.compile(p1) print pattern1.findall(key)
輸出
為了方便我們寫簡(jiǎn)潔的正則表達(dá)式,它本身還提供下面這樣的寫法
正則表達(dá)式 | 代表的匹配字符 |
---|---|
[0-9] | 0123456789任意之一 |
[a-z] | 小寫字母任意之一 |
[A-Z] | 大寫字母任意之一 |
\d | 等同于[0-9] |
\D | 等同于[^0-9]匹配非數(shù)字 |
\w | 等同于[a-z0-9A-Z_]匹配大小寫字母、數(shù)字和下劃線 |
\W | 等同于[^a-z0-9A-Z_]等同于上一條取非 |
3.介紹到這里,我們可能已經(jīng)掌握了大致的正則表達(dá)式的構(gòu)造方式,但是我們常常會(huì)在實(shí)戰(zhàn)中遇到一些匹配的不準(zhǔn)確的問(wèn)題。比方說(shuō):
import re key = r"chuxiuhong@hit.edu.cn" p1 = r"@.+\."#我想匹配到@后面一直到“.”之間的,在這里是hit pattern1 = re.compile(p1) print pattern1.findall(key)
輸出結(jié)果
['@hit.edu.']
呦呵!你咋能多了呢?我理想的結(jié)果是@hit.,你咋還給我加量了呢?這是因?yàn)檎齽t表達(dá)式默認(rèn)是“貪婪”的,我們之前講過(guò),“+”代表是字符重復(fù)一次或多次。但是我們沒(méi)有細(xì)說(shuō)這個(gè)多次到底是多少次。所以它會(huì)盡可能“貪婪”地多給我們匹配字符,在這個(gè)例子里也就是匹配到最后一個(gè)“.”。
我們?cè)趺唇鉀Q這種問(wèn)題呢?只要在“+”后面加一個(gè)“?”就好了。
import re key = r"chuxiuhong@hit.edu.cn" p1 = r"@.+?\."#我想匹配到@后面一直到“.”之間的,在這里是hit pattern1 = re.compile(p1) print pattern1.findall(key)
輸出結(jié)果
['@hit.']
加了一個(gè)“?”我們就將貪婪的“+”改成了懶惰的“+”。這對(duì)于[abc]+,\w*之類的同樣適用。
小測(cè)驗(yàn):上面那個(gè)例子可以不使用懶惰匹配,想一種方法得到同樣的結(jié)果
**個(gè)人建議:在你使用"+","*"的時(shí)候,一定先想好到底是用貪婪型還是懶惰型,尤其是當(dāng)你用到范圍較大的項(xiàng)目上時(shí),因?yàn)楹苡锌赡芩投嗥ヅ渥址貋?lái)給你?。?!**
為了能夠準(zhǔn)確的控制重復(fù)次數(shù),正則表達(dá)式還提供
{a,b}(代表a<=匹配次數(shù)<=b)
還是舉個(gè)栗子,我們有sas,saas,saaas,我們想要sas和saas,我們?cè)趺刺幚砟兀?/p>
import re key = r"saas and sas and saaas" p1 = r"sa{1,2}s" pattern1 = re.compile(p1) print pattern1.findall(key)
輸出
['saas', 'sas']
如果你省略掉{1,2}中的2,那么就代表至少匹配一次,那么就等價(jià)于?
如果你省略掉{1,2}中的1,那么就代表至多匹配2次。
下面列舉一些正則表達(dá)式里的元字符及其作用
元字符 | 說(shuō)明 |
---|---|
. | 代表任意字符 |
\ | |
[ ] | 匹配內(nèi)部的任一字符或子表達(dá)式 |
[^] | 對(duì)字符集和取非 |
- | 定義一個(gè)區(qū)間 |
\ | 對(duì)下一字符取非(通常是普通變特殊,特殊變普通) |
* | 匹配前面的字符或者子表達(dá)式0次或多次 |
*? | 惰性匹配上一個(gè) |
+ | 匹配前一個(gè)字符或子表達(dá)式一次或多次 |
+? | 惰性匹配上一個(gè) |
? | 匹配前一個(gè)字符或子表達(dá)式0次或1次重復(fù) |
{n} | 匹配前一個(gè)字符或子表達(dá)式 |
{m,n} | 匹配前一個(gè)字符或子表達(dá)式至少m次至多n次 |
{n,} | 匹配前一個(gè)字符或者子表達(dá)式至少n次 |
{n,}? | 前一個(gè)的惰性匹配 |
^ | 匹配字符串的開頭 |
\A | 匹配字符串開頭 |
$ | 匹配字符串結(jié)束 |
[\b] | 退格字符 |
\c | 匹配一個(gè)控制字符 |
\d | 匹配任意數(shù)字 |
\D | 匹配數(shù)字以外的字符 |
\t | 匹配制表符 |
\w | 匹配任意數(shù)字字母下劃線 |
\W | 不匹配數(shù)字字母下劃線 |
以上就是本文的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流,同時(shí)也希望多多支持腳本之家!
- python 根據(jù)正則表達(dá)式提取指定的內(nèi)容實(shí)例詳解
- Python 正則表達(dá)式的高級(jí)用法
- Python 爬蟲學(xué)習(xí)筆記之正則表達(dá)式
- Python正則表達(dá)式使用經(jīng)典實(shí)例
- python 正則表達(dá)式學(xué)習(xí)小結(jié)
- Python匹配中文的正則表達(dá)式
- Python for Informatics 第11章 正則表達(dá)式(一)
- Python基礎(chǔ)教程之正則表達(dá)式基本語(yǔ)法以及re模塊
- python正則表達(dá)式之作業(yè)計(jì)算器
- 玩轉(zhuǎn)python爬蟲之正則表達(dá)式
- Python正則表達(dá)式之基礎(chǔ)篇
- Python的爬蟲包Beautiful Soup中用正則表達(dá)式來(lái)搜索
- Python 正則表達(dá)式入門(中級(jí)篇)
相關(guān)文章
Python中的數(shù)據(jù)類dataclass解讀
這篇文章主要介紹了Python中的數(shù)據(jù)類dataclass使用,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-01-01Python實(shí)現(xiàn)樹莓派WiFi斷線自動(dòng)重連的實(shí)例代碼
實(shí)現(xiàn) WiFi 斷線自動(dòng)重連,原理是用 Python 監(jiān)測(cè)網(wǎng)絡(luò)是否斷線,如果斷線則重啟網(wǎng)絡(luò)服務(wù)。接下來(lái)給大家分享實(shí)現(xiàn)代碼,需要的朋友參考下2017-03-03Python實(shí)現(xiàn)的中國(guó)剩余定理算法示例
這篇文章主要介紹了Python實(shí)現(xiàn)的中國(guó)剩余定理算法,結(jié)合實(shí)例形式分析了中國(guó)剩余定理的概念、原理及具體算法實(shí)現(xiàn)技巧,需要的朋友可以參考下2017-08-08pandas中關(guān)于apply+lambda的應(yīng)用
本文主要介紹了pandas中關(guān)于apply+lambda的應(yīng)用,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-02-02python嵌套字典比較值與取值的實(shí)現(xiàn)示例
這篇文章主要給大家介紹了關(guān)于python嵌套字典比較值與取值的實(shí)現(xiàn)方法,詳細(xì)介紹了python字典嵌套字典的情況下獲取某個(gè)key的value的相關(guān)內(nèi)容,分享出來(lái)供大家參考學(xué)習(xí),需要的朋友們下面來(lái)一起看看吧。2017-11-11python中用Scrapy實(shí)現(xiàn)定時(shí)爬蟲的實(shí)例講解
在本篇文章里小編給大家整理的是一篇關(guān)于python中用Scrapy實(shí)現(xiàn)定時(shí)爬蟲的實(shí)例講解內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。2021-01-01