淺談Python采集網(wǎng)頁時正則表達式匹配換行符的問題
更新時間:2018年12月20日 10:10:43 作者:lmb20056127
今天小編就為大家分享一篇淺談Python采集網(wǎng)頁時正則表達式匹配換行符的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
如下所示:
p1 = r'(?<=<div class="ds_cr">)(.*?)(?=<div id="pageurl">)' #這樣采集html時出錯,采集不到數(shù)據(jù),正則中 . 是不能匹配換行符,改成如下: p1 = r'(?<=<div class="ds_cr">)([\s\S]*?)(?=<div id="pageurl">)' # 這是我們寫的正則表達式規(guī)則,你現(xiàn)在可以不理解啥意思
[\s\S]
\s
匹配任何空白字符,包括空格、制表符、換頁符等等。等價于[ \f\n\r\t\v]。
\S
匹配任何非空白字符。等價于[^ \f\n\r\t\v]。
以上這篇淺談Python采集網(wǎng)頁時正則表達式匹配換行符的問題就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
使用Python進行數(shù)據(jù)清洗和預(yù)處理的實現(xiàn)代碼
Python作為數(shù)據(jù)科學(xué)領(lǐng)域的熱門編程語言,提供了豐富的庫和工具來處理和清洗數(shù)據(jù),本文將介紹如何使用Python進行數(shù)據(jù)清洗和預(yù)處理,并提供相應(yīng)的代碼示例,需要的朋友可以參考下2024-05-055分鐘教會你用Docker部署一個Python應(yīng)用
Docker是一個開源項目,為開發(fā)人員和系統(tǒng)管理員提供了一個開放平臺,可以將應(yīng)用程序構(gòu)建、打包為一個輕量級容器,并在任何地方運行,下面這篇文章主要給大家介紹了關(guān)于如何通過5分鐘教會你用Docker部署一個Python應(yīng)用,需要的朋友可以參考下2022-06-06關(guān)于Python網(wǎng)絡(luò)爬蟲requests庫的介紹
這篇文章主要介紹了關(guān)于Python網(wǎng)絡(luò)爬蟲requests庫,而很多時候這些數(shù)據(jù)存儲在網(wǎng)頁中,手動下載需要花費的時間太長,這時候我們就需要網(wǎng)絡(luò)爬蟲幫助我們自動爬取這些數(shù)據(jù),需要的朋友可以參考下2023-04-04Python 數(shù)據(jù)結(jié)構(gòu)之隊列的實現(xiàn)
這篇文章主要介紹了Python 數(shù)據(jù)結(jié)構(gòu)之隊列的實現(xiàn)的相關(guān)資料,需要的朋友可以參考下2017-01-01