淺談python正則的常用方法 覆蓋范圍70%以上
上一次很多朋友寫文字屏蔽說到要用正則表達(dá),其實(shí)不是我不想用(我正則用得不是很多,看過我之前爬蟲的都知道,我直接用BeautifulSoup的網(wǎng)頁標(biāo)簽去找內(nèi)容,因?yàn)槿菀桌斫庖卜奖?,),而是正則用好用精通的很難(看過正則表的應(yīng)該都知道,里面符號對應(yīng)的方法規(guī)則有很多,很靈活),對于接觸編程不久的朋友們來說很可能在編程的過程上浪費(fèi)很多時間,今天我把經(jīng)常會用到正則簡單介紹下,如果不是很特殊基本都覆蓋使用。
1.正則的簡單介紹
首先你得導(dǎo)入正則方法 import re正則表達(dá)式是用于處理字符串的強(qiáng)大工具,擁有自己獨(dú)立的處理機(jī)制,效率上可能不如str自帶的方法,但功能十分靈活給力。它的運(yùn)行過程是先定一個匹配規(guī)則("你想要的內(nèi)容+正則語法規(guī)則"),放入要匹配的字符串,通過正則內(nèi)部的機(jī)制就能檢索你想要的信息。
2.findall的常用幾種姿勢
基本結(jié)構(gòu)大致: nojoke = re.findall(r'匹配的規(guī)則','要檢索的愿字符串') nojoke就是我們最后通過正則返回的結(jié)果,re正則findall查找全部r標(biāo)識代表后面是正則的語句(這樣在代碼多的時候好查閱),下面我們看看幾個例子好深入了解
這段代碼是找出檢索字符串中所有的bi并以列表的形式返回,這個會經(jīng)常用到計算統(tǒng)一字符出現(xiàn)的次數(shù)。繼續(xù)看下一個
這里加了個符號^表示匹配以abi開頭的的字符串返回,也可以判斷字符串是否以abi開始的。
這里在的用$符號表示以gbi結(jié)尾的字符串返回,判斷是否字符串結(jié)束的字符串。
這里[...]的意思匹配括號內(nèi)a和f,或者b和f,或者c和f的值返回列表。
“\d”是正則語法規(guī)則用來匹配0到9之間的數(shù)返回列表,需要注意的是11會當(dāng)成字符串'1'和'1'返回而不是返回'11'這個字符串,切記用不好這里是大坑。
當(dāng)然解決的辦法就你要取幾位數(shù)就寫幾個\d,上面這里演示取字符串中3位數(shù)字,這里展現(xiàn)了正則靈活一方面。
這里小d表示取數(shù)字0-9,大D表示不要數(shù)字,也就是出了數(shù)字以外的內(nèi)容返回。
“\w”在正則里面代表匹配從小寫a到z,大寫A到Z,數(shù)字0到9包含前面這三種的如上面打印的一樣.
"\W"在正則里面代表匹配除了字母與數(shù)字以外的特殊符號,但這里\斜杠的用法要注意在字符串\是轉(zhuǎn)義符號具體百度去學(xué)。
這里括號()的用法表示匹配是取括號內(nèi)里面的內(nèi)容,這里.*是正則貪婪匹配語法百話點(diǎn)就是貪心利益最大話最大范圍的匹配準(zhǔn)則如上圖所示。
這里加了個問號.*?就是限制它不讓他最大范圍的匹配也叫非貪婪模式匹配。結(jié)果是把兩個div內(nèi)的內(nèi)容匹配返回。
這里加re.I(大寫的i)表示匹配無論公的母的大小寫都通吃都要,不然后面有大小寫就會出現(xiàn)上面匹配找不到返回空列表給你。
這里又搞事了就是\n俗稱換行符,一旦換行程序就SB了不認(rèn)了,所以我們加上了re.S(大寫)這樣代表比匹配包括換行在內(nèi)的所有字符內(nèi)容返回,基本你把上面的語法和用法學(xué)會后基本70%以上匹配方法全都搞定,當(dāng)然還有很方法我就不列舉了,大家可以自己去學(xué)習(xí)(剩下的基本我都很少用到了)。
2.match和search的用法及區(qū)別:
re.match 嘗試從字符串的起始位置匹配一個模式,如果不是起始位置匹配成功的話,match()就返回none。re.search 掃描整個字符串并返回第一個成功的匹配。來看看代碼就容易理解了。如下:
這里直接打印結(jié)尾加上.span()可以得到匹配字符串的位置以元組tuple返回(起始位置,結(jié)束位置),有一個沒寫,因?yàn)樗祷乜占由蠒幾g器報錯。
是不是一目了然,match只會開頭匹配,找不到就返回None,這里我沒加.group()是因?yàn)榉祷刂凳强罩滴壹恿司幾g器會報錯,search不挑食掃描整個字符串,當(dāng)然里面也可以用上面的正則方法去匹配,這里就不過多介紹了大家可以動手練練。
3.sub替換的用法
sub用于替換字符串中的匹配項(xiàng),語法一般是re.sub(r'正則匹配規(guī)則','替換的字符串',需要檢索的字符串)
這里很直觀的反應(yīng)了結(jié)果,把#號及后面的字符串替換想要改的字符串。
4.最后福利
在給最后福利之前,希望大家能多練練上面的用法和使用規(guī)則,只有多出錯多總結(jié)才會積累經(jīng)驗(yàn),最后的福利講給大家?guī)讉€常用的郵箱匹配規(guī)則如下:
必殺技能最后送了合體多種匹配或者發(fā)|用來匹配多個不同的郵箱使用,大家只要用熟以上的方法保守70%以上的地方都能夠使用到,最后聲明只是小弟個人理解分享,大佬們忽略就忽略吧,謝謝,最后還還是老臺詞:感謝觀看,下次再見!
相關(guān)文章
Python Multinomial Naive Bayes多項(xiàng)貝葉斯模型實(shí)現(xiàn)原理介紹
這篇文章主要介紹了Python Multinomial Naive Bayes多項(xiàng)貝葉斯模型實(shí)現(xiàn)原理,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧2022-09-09Python利用Matplotlib繪圖無法顯示中文字體的兩種解決方案
matplotlib 是python最著名的繪圖庫,它提供了一整套和matlab相似的命令A(yù)PI,這篇文章主要給大家介紹了關(guān)于Python利用Matplotlib繪圖無法顯示中文字體的兩種解決方案,需要的朋友可以參考下2024-03-03利用Python實(shí)現(xiàn)某OA系統(tǒng)的自動定位功能
這篇文章主要介紹了利用Python實(shí)現(xiàn)某OA系統(tǒng)的自動定位功能,本文通過圖文實(shí)例相結(jié)合給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-05-05Python破解BiliBili滑塊驗(yàn)證碼的思路詳解(完美避開人機(jī)識別)
這篇文章主要介紹了Python破解BiliBili滑塊驗(yàn)證碼的思路,本文通過實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價值,需要的朋友可以參考下2020-02-02