python用match()函數(shù)爬數(shù)據(jù)方法詳解
match()函數(shù)的使用。以及從文本中提取數(shù)據(jù)的方法。在學(xué)習(xí)re模塊的相關(guān)函數(shù)前應(yīng)了解正則表達(dá)式的特殊字符
準(zhǔn)備一個(gè)要爬取的文本文檔:
直接從某個(gè)網(wǎng)頁(yè)拷貝一份代碼,粘貼在 一個(gè)txt文件里,以供學(xué)習(xí)。
方法很簡(jiǎn)單,比如打開百度視頻的熱門電影網(wǎng)頁(yè),右鍵點(diǎn)擊查看源代碼,然后復(fù)制,粘貼到一個(gè)txt文件里,保存到工作目錄下。
有4000多行。
re.match(pattern, string, flags=0)
①pattern,是正則表達(dá)式。string,被檢驗(yàn)的字符串。
②flags是可選參數(shù),此標(biāo)記是用來(lái)對(duì)patten的補(bǔ)充。例如:re.S,可以讓正則表達(dá)式中的點(diǎn)匹配換行符\n。(如圖片中,可以看幫助文檔,查看有哪些標(biāo)記)
③ match()函數(shù)由左向右檢驗(yàn)string,若匹配到正則表達(dá)式,返回一個(gè)匹配對(duì)象,否則就返回None.
④re.match() 匹配字符串的開始位置,而不匹配每行開始。
----所以才將網(wǎng)頁(yè)的每行放入列表,以供match函數(shù)對(duì)每行操作。
比如要在文檔中,提取電影的網(wǎng)址,和電影名。
①?gòu)?fù)制那行文本作為表達(dá)式,
②將要提取的網(wǎng)址和和電影名替換為(.*),這只是暫時(shí)的,可以在接下來(lái)的代碼中調(diào)整。
讀取文本:
①用with open()語(yǔ)句讀??;
②用readlines,一次性讀完,返回一個(gè)列表,元素是文本的每一行。
with open('aa.txt','r',encoding='utf-8') as f: lines=f.readlines()
①判斷每行是否返回了匹配的對(duì)象,
②接收匹配對(duì)象,并用groups()提取表達(dá)式內(nèi)括號(hào)的內(nèi)容;
for line in lines: if re.match(pat,line): #判斷過(guò)濾掉返回None的行, ret=re.match(pat,line) #接收匹配對(duì)象 print(ret.groups())
發(fā)現(xiàn)有不符合的行,稍加修改,過(guò)濾掉不符合的行:
因?yàn)?,不合的行都有空格(或其他字符)??梢越o第二子組的點(diǎn) . 換成非[^ ];非空格的任意字符,意思就是不要有空格的。
用f-string格式化對(duì)輸出的文本稍加修飾,使用group(1),group(2);
可以將這段代碼封裝為一個(gè)函數(shù)。爬取百度視頻的其他欄目。
測(cè)試: 百度視頻的電影,電視劇,和動(dòng)漫等欄目,網(wǎng)頁(yè)上的格式基本相同,所以用上面的函數(shù)直接套用。
打開百度視頻的動(dòng)漫,復(fù)制源代碼,存為bb.txt。
同樣可以爬取網(wǎng)址和視頻名稱。
以上僅是練習(xí)match()函數(shù)的例子。
以上就是關(guān)于python如何用match()函數(shù)爬數(shù)據(jù)的全部?jī)?nèi)容,感謝大家的閱讀和對(duì)腳本之家的支持。
相關(guān)文章
Python?Watchdog實(shí)現(xiàn)實(shí)時(shí)監(jiān)控文件系統(tǒng)
Python?Watchdog是一個(gè)優(yōu)秀的第三方庫(kù),用于實(shí)現(xiàn)高效的文件系統(tǒng)監(jiān)控,本文將為大家詳細(xì)介紹一下Python如何使用Watchdog實(shí)現(xiàn)實(shí)時(shí)監(jiān)控文件,需要的可以參考下2023-11-11centos6.5安裝python3.7.1之后無(wú)法使用pip的解決方案
今天小編就為大家分享一篇關(guān)于centos6.5安裝python3.7.1之后無(wú)法使用pip的解決方案,小編覺(jué)得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來(lái)看看吧2019-02-02Django Admin后臺(tái)添加數(shù)據(jù)庫(kù)視圖過(guò)程解析
這篇文章主要介紹了Django Admin后臺(tái)添加數(shù)據(jù)庫(kù)視圖過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04Python 對(duì)象序列化與反序列化之pickle json詳細(xì)解析
我們知道在Python中,一切皆為對(duì)象,實(shí)例是對(duì)象,類是對(duì)象,元類也是對(duì)象。本文正是要聊聊如何將這些對(duì)象有效地保存起來(lái),以供后續(xù)使用2021-09-09python接口調(diào)用已訓(xùn)練好的caffe模型測(cè)試分類方法
今天小編就為大家分享一篇python接口調(diào)用已訓(xùn)練好的caffe模型測(cè)試分類方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-08-08python 基于空間相似度的K-means軌跡聚類的實(shí)現(xiàn)
這篇文章主要介紹了python 基于空間相似度的K-means軌跡聚類的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03python 協(xié)程中的迭代器,生成器原理及應(yīng)用實(shí)例詳解
這篇文章主要介紹了python 協(xié)程中的迭代器,生成器原理及應(yīng)用,結(jié)合具體實(shí)例形式詳細(xì)分析了Python協(xié)程中的迭代器,生成器概念、原理及應(yīng)用操作技巧,需要的朋友可以參考下2019-10-10在Flask使用TensorFlow的幾個(gè)常見錯(cuò)誤及解決
這篇文章主要介紹了在Flask使用TensorFlow的幾個(gè)常見錯(cuò)誤及解決,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-01-01