使用Python正則表達(dá)式操作文本數(shù)據(jù)的方法
什么是正則表達(dá)式
正則表達(dá)式,是簡單地字符的序列,可指定特定的搜索模式。正則表達(dá)式已存在很長一段時間,并且它本身就是計(jì)算機(jī)科學(xué)的一個領(lǐng)域。
在 Python中,使用Python的內(nèi)置re模塊處理正則表達(dá)式操作 。在本節(jié)中,我將介紹創(chuàng)建正則表達(dá)式并使用它們的基礎(chǔ)知識。您可以使用以下步驟實(shí)現(xiàn)正則表達(dá)式:
- 指定模式字符串。
- 將模式字符串編譯為正則表達(dá)式對象。
- 使用正則表達(dá)式對象在字符串中搜索模式。
- 可選:從字符串中提取匹配的模式。
編寫和使用正則表達(dá)式
在Python中創(chuàng)建正則表達(dá)式的第一步是導(dǎo)入re 模塊:
import re
Python正則表達(dá)式使用模式字符串表示,模式字符串是指定所需搜索模式的字符串。在最簡單的形式中,模式字符串只能由字母,數(shù)字和空格組成。以下模式字符串表示精確字符序列的搜索查詢。您可以將每個角色視為一個單獨(dú)的模式。在后面的例子中,我將討論更復(fù)雜的模式:
import re pattern_string = "this is the pattern"
下一步是將模式字符串處理為Python可以使用的對象,以便搜索模式。這是使用re模塊的compile()方法完成的。的編譯()方法將圖案字符串作為參數(shù)并返回一個正則表達(dá)式對象:
import re pattern_string = "this is the pattern" regex = re.compile(pattern_string)
獲得正則表達(dá)式對象后,可以使用它在搜索字符串中搜索模式字符串中指定的模式。搜索字符串只是您要在其中查找模式的字符串的名稱。要搜索模式,可以使用regex對象的search()方法,如下所示:
import re pattern_string = "this is the pattern" regex = re.compile(pattern_string) match = regex.search("this is the pattern")
如果模式字符串中指定的模式位于搜索字符串中,則search()方法將返回匹配對象。否則,它返回None數(shù)據(jù)類型,這是一個空值。
由于Python相當(dāng)松散地解釋了True和False值,因此搜索函數(shù)的結(jié)果可以像if語句中的布爾值一樣使用,這可能相當(dāng)方便:
.... match = regex.search("this is the pattern") if match: print("this was a match!")
這個模式應(yīng)該產(chǎn)生一個匹配,因?yàn)樗c模式字符串中指定的模式完全匹配。如果在搜索字符串的任意位置找到模式,搜索函數(shù)將生成匹配,如下所示:
.... match = regex.search("this is the pattern") if match: print("this was a match!") if regex.search("*** this is the pattern ***"): print("this was not a match!") if not regex.search("this is not the pattern"): print("this was not a match!")
特殊字符
正則表達(dá)式取決于使用某些特殊字符來表達(dá)模式。因此,除非用于預(yù)期目的,否則不應(yīng)直接使用以下字符:
. ^ $ * + ? {} () [] |
如果確實(shí)需要使用模式字符串中的任何前面提到的字符來搜索該字符,則可以編寫以反斜杠字符開頭的字符。這稱為轉(zhuǎn)義字符。這是一個例子:
pattern string = "c*b" ## matches "c*b"
如果需要搜索反斜杠字符本身,則使用兩個反斜杠字符,如下所示:
pattern string = "cb" ## matches "cb"
匹配空格
在模式字符串中的任何位置使用s都匹配空白字符。這比空格字符更通用,因?yàn)樗m用于制表符和換行符:
.... a_space_b = re.compile("asb") if a_space_b.search("a b"): print("'a b' is a match!") if a_space_b.search("1234 a b 1234"): print("'1234 a b 1234' is a match") if a_space_b.search("ab"): print("'1234 a b 1234' is a match")
匹配字符串的開頭
如果在模式字符串的開頭使用^字符,則只有在搜索字符串的開頭找到模式時,正則表達(dá)式才會產(chǎn)生匹配:
.... a_at_start = re.compile("^a") if a_at_start.search("a"): print("'a' is a match") if a_at_start.search("a 1234"): print("'a 1234' is a match") if a_at_start.search("1234 a"): print("'1234 a' is a match")
匹配字符串的結(jié)尾
類似地,如果在模式字符串的末尾使用$符號,則正則表達(dá)式將僅在模式出現(xiàn)在搜索字符串的末尾時生成匹配:
.... a_at_end = re.compile("a$") if a_at_end.search("a"): print("'a' is a match") if a_at_end.search("a 1234"): print("'a 1234' is a match") if a_at_end.search("1234 a"): print("'1234 a' is a match")
匹配一系列字符
可以匹配一系列字符而不是一個字符。這可以為模式增加一些靈活性:
[A-Z] matches all capital letters [a-z] matches all lowercase letters [0-9] matches all digits .... lower_case_letter = re.compile("[a-z]") if lower_case_letter.search("a"): print("'a' is a match") if lower_case_letter.search("B"): print("'B' is a match") if lower_case_letter.search("123 A B 2"): print("'123 A B 2' is a match") digit = re.compile("[0-9]") if digit.search("1"): print("'a' is a match") if digit.search("342"): print("'a' is a match") if digit.search("asdf abcd"): print("'a' is a match")
匹配幾種模式中的任何一種
如果存在構(gòu)成匹配的固定數(shù)量的模式,則可以使用以下語法組合它們:
(||)
以下a_or_b正則表達(dá)式將匹配任何字符或ab字符的字符串:
.... a_or_b = re.compile("(a|b)") if a_or_b.search("a"): print("'a' is a match") if a_or_b.search("b"): print("'b' is a match") if a_or_b.search("c"): print("'c' is a match")
匹配序列而不是僅匹配一個字符
如果+字符位于另一個字符或模式之后,則正則表達(dá)式將匹配該模式的任意長序列。這非常有用,因?yàn)樗梢院苋菀椎乇磉_(dá)可以是任意長度的單詞或數(shù)字。
將模式放在一起
通過一個接一個地組合圖案串可以產(chǎn)生更復(fù)雜的圖案。在下面的示例中,我創(chuàng)建了一個正則表達(dá)式,用于搜索嚴(yán)格后跟單詞的數(shù)字。生成正則表達(dá)式的模式字符串由以下內(nèi)容組成:
與數(shù)字序列匹配的模式字符串:[0-9]+與空白字符匹配的模式字符串:s與字母序列匹配的模式字符串:[az] +
與字符串結(jié)尾或空格字符匹配的模式字符串:(s | $)
.... number_then_word = re.compile("[0-9]+s[a-z]+(s|$)")
正則表達(dá)式split()函數(shù)
Python中的Regex 對象也有一個split()方法。split方法將搜索字符串拆分為子字符串?dāng)?shù)組。所述分裂發(fā)生在沿著其中該圖案被識別的字符串中的每個位置。結(jié)果是在模式的實(shí)例之間出現(xiàn)的字符串?dāng)?shù)組。如果模式出現(xiàn)在搜索字符串的開頭或結(jié)尾,則分別在結(jié)果數(shù)組的開頭或結(jié)尾包含一個空字符串:
.... print(a_or_b.split("123a456b789")) print(a_or_b.split("a1b"))
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
淺談python 線程池threadpool之實(shí)現(xiàn)
這篇文章主要介紹了淺談python 線程池threadpool之實(shí)現(xiàn),小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-11-11利用Python的Flask框架來構(gòu)建一個簡單的數(shù)字商品支付解決方案
這篇文章主要介紹了利用Python的Flask框架來構(gòu)建一個簡單的數(shù)字商品支付解決方案,文中用極簡的代碼展示了一個flask框架下的支付模版,需要的朋友可以參考下2015-03-03pandas 實(shí)現(xiàn)將NaN轉(zhuǎn)換為None
這篇文章主要介紹了pandas 實(shí)現(xiàn)將NaN轉(zhuǎn)換為None的操作,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2021-05-05詳解python selenium 爬取網(wǎng)易云音樂歌單名
這篇文章主要介紹了python selenium爬取網(wǎng)易云音樂歌單名,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-03-03使用Python創(chuàng)建多功能文件管理器的代碼示例
在本文中,我們將探索一個使用Python的wxPython庫開發(fā)的文件管理器應(yīng)用程序,這個應(yīng)用程序不僅能夠?yàn)g覽和選擇文件,還支持文件預(yù)覽、壓縮、圖片轉(zhuǎn)換以及生成PPT演示文稿的功能,需要的朋友可以參考下2024-08-08使用memory_profiler監(jiān)測python代碼運(yùn)行時內(nèi)存消耗方法
今天小編就為大家分享一篇使用memory_profiler監(jiān)測python代碼運(yùn)行時內(nèi)存消耗方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12Python基于遞歸和非遞歸算法求兩個數(shù)最大公約數(shù)、最小公倍數(shù)示例
這篇文章主要介紹了Python基于遞歸和非遞歸算法求兩個數(shù)最大公約數(shù)、最小公倍數(shù),涉及Python遞歸算法、流程循環(huán)控制進(jìn)行數(shù)值運(yùn)算相關(guān)操作技巧,需要的朋友可以參考下2018-05-05