Python for Informatics 第11章 正則表達(dá)式(一)
正則表達(dá)式,又稱正規(guī)表示法、常規(guī)表示法(英語(yǔ):Regular Expression,在代碼中常簡(jiǎn)寫為regex、regexp或RE),計(jì)算機(jī)科學(xué)的一個(gè)概念。正則表達(dá)式使用單個(gè)字符串來(lái)描述、匹配一系列符合某個(gè)句法規(guī)則的字符串。在很多文本編輯器里,正則表達(dá)式通常被用來(lái)檢索、替換那些符合某個(gè)模式的文本。
注:以下文章原文來(lái)自于Dr Charles Severance 的 《Python for Informatics》
目前為止,我們一直在通讀文件,查找模式和抽取字里行間我們感興趣的各種信息。我們一直在使用像split和find的字符串方法,以及列表和字符串的切片功能來(lái)抽取行中的部分內(nèi)容。
像這樣的查找和抽取任務(wù)是如此常見(jiàn),所以Python擁有一個(gè)非常強(qiáng)大的庫(kù)——正則表達(dá)式(regular expressions)來(lái)優(yōu)雅地處理這些任務(wù)。我們未早一點(diǎn)介紹正則表達(dá)式是因?yàn)?,雖然它們很強(qiáng)大,但是有點(diǎn)復(fù)雜,并且需要一些時(shí)間去適應(yīng)它們的語(yǔ)法。
正式表達(dá)式近乎是一個(gè)用來(lái)查找和分析字符串的小型編程語(yǔ)言。事實(shí)上,關(guān)于正則表達(dá)式可以寫一本完整的書(shū)。在這一章,我們將只涉及其基礎(chǔ)。想要獲得正則表達(dá)式的更多信息,請(qǐng)參閱:
http://en.wikipedia.org/wiki/Regular_expression
http://docs.python.org/library/re.html
在你使用正則表達(dá)式前,你必須將庫(kù)文件導(dǎo)入到你的程序。正則表達(dá)式最簡(jiǎn)單的應(yīng)用是search()函數(shù),下面的程序?qū)⒀菔緎earch函數(shù)的小應(yīng)用。
import re hand = open('mbox-short.txt') for line in hand: line = line.rstrip() if re.search('From:', line): print(line)
我們打開(kāi)mbox-short文件,循環(huán)讀取每一行,并用正則表達(dá)式的search()來(lái)查找包含“From:”字符串的行,然后打印輸出這些行。這個(gè)程序并未運(yùn)用正則表達(dá)式的真實(shí)能力,因?yàn)槲覀冎灰?jiǎn)單的使用line.find()也可實(shí)現(xiàn)同樣的結(jié)果。
當(dāng)我們?cè)诓樵冏址刑砑犹厥庾址?,使得我們可以更加精確的控制那些匹配字符串的行,這時(shí)候正則表達(dá)式的能力就開(kāi)始顯現(xiàn)。在正則表達(dá)式中添加那些特殊字符可以讓我們用非常少的代碼實(shí)現(xiàn)復(fù)雜的匹配和抽取。
例如,正則表達(dá)式中用插入符號(hào)^來(lái)匹配一行中的開(kāi)始。我們只要在查詢字符前添加一個(gè)插入符,就可將程序修改為只匹配打印以“From:"開(kāi)始的行,具體代碼如下:
import re hand = open('mbox-short.txt') for line in hand: line = line.rstrip() if re.search('^From:', line) print(line)
現(xiàn)在,我們將只匹配以”From:“開(kāi)始的行。這個(gè)簡(jiǎn)單的例子我們可以用字符串庫(kù)的startswith()方法同樣實(shí)現(xiàn)。這個(gè)例子用來(lái)告訴我們這樣一個(gè)概念,包含特殊字符的正則表達(dá)式將給我們更強(qiáng)的控制。
注:原文給的代碼是2.7版,因?yàn)槲易约菏褂玫氖?.4版,所以將print line 修改為 print(line)。
相關(guān)閱讀:
Python for Informatics 第11章 正則表達(dá)式(一)
Python for Informatics 第11章之正則表達(dá)式(二)
Python for Informatics 第11章之正則表達(dá)式(四)
關(guān)于Python for Informatics 第11章 正則表達(dá)式(一)的相關(guān)內(nèi)容就給大家介紹這么多,后續(xù)還會(huì)持續(xù)更新,更多精彩內(nèi)容敬請(qǐng)關(guān)注!
- Python 正則表達(dá)式入門(初級(jí)篇)
- python 根據(jù)正則表達(dá)式提取指定的內(nèi)容實(shí)例詳解
- Python 正則表達(dá)式的高級(jí)用法
- Python 爬蟲(chóng)學(xué)習(xí)筆記之正則表達(dá)式
- Python正則表達(dá)式使用經(jīng)典實(shí)例
- python 正則表達(dá)式學(xué)習(xí)小結(jié)
- Python匹配中文的正則表達(dá)式
- Python基礎(chǔ)教程之正則表達(dá)式基本語(yǔ)法以及re模塊
- python正則表達(dá)式之作業(yè)計(jì)算器
- 玩轉(zhuǎn)python爬蟲(chóng)之正則表達(dá)式
- Python正則表達(dá)式之基礎(chǔ)篇
- Python的爬蟲(chóng)包Beautiful Soup中用正則表達(dá)式來(lái)搜索
- Python 正則表達(dá)式入門(中級(jí)篇)
相關(guān)文章
利用機(jī)器學(xué)習(xí)預(yù)測(cè)房?jī)r(jià)
這篇文章主要介紹了利用機(jī)器學(xué)習(xí)回歸模型預(yù)測(cè)房?jī)r(jià),解釋清晰,代碼詳細(xì),是很不錯(cuò)的機(jī)器學(xué)習(xí)實(shí)戰(zhàn)演練,對(duì)機(jī)器學(xué)習(xí)感興趣的朋友可以參考一下2021-04-04python模擬實(shí)現(xiàn)斗地主發(fā)牌
這篇文章主要為大家詳細(xì)介紹了python代碼模擬實(shí)現(xiàn)斗地主發(fā)牌,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-01-01Python?multiprocessing.value實(shí)現(xiàn)多進(jìn)程數(shù)據(jù)共享的示例
本文介紹了Python中的multiprocessing.value,通過(guò)示例代碼展示了如何使用這個(gè)類實(shí)現(xiàn)多進(jìn)程數(shù)據(jù)共享,以及使用場(chǎng)景和注意事項(xiàng)等內(nèi)容,感興趣的朋友跟隨小編一起看看吧2023-07-07python3+PyQt5 自定義窗口部件--使用窗口部件樣式表的方法
今天小編就為大家分享一篇python3+PyQt5 自定義窗口部件--使用窗口部件樣式表的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-06-06python 編程之twisted詳解及簡(jiǎn)單實(shí)例
這篇文章主要介紹了python 編程之twisted詳解及簡(jiǎn)單實(shí)例的相關(guān)資料,需要的朋友可以參考下2017-01-01Python fileinput模塊如何逐行讀取多個(gè)文件
這篇文章主要介紹了Python fileinput模塊如何逐行讀取多個(gè)文件,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-10-10python 函數(shù)中的內(nèi)置函數(shù)及用法詳解
這篇文章主要介紹了python 函數(shù)中的內(nèi)置函數(shù) 及用法,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-07-07