腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語(yǔ)言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫(kù)

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

Python正則表達(dá)式re.compile()和re.findall()詳解

更新時(shí)間：2022年07月07日 09:39:37 作者：扒啦啦能量

re?模塊提供了不少有用的函數(shù),用以匹配字符串,下面這篇文章主要給大家介紹了關(guān)于Python正則表達(dá)式re.compile()和re.findall()的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下

前言

在使用爬蟲提取網(wǎng)頁(yè)中的部分信息時(shí)，采用到了re.compile()與re.findall()兩種方法，目的：把網(wǎng)頁(yè)中的“某某城市土地規(guī)劃表”截取并打印出來(lái).

網(wǎng)頁(yè)中的代碼：

 <span class='tab-details'>某某城市土地規(guī)劃表</span>

提取的方法：

def parse_response(html):
    pattern = re.compile('class=\'tab-details\'>(.*?)</span>',re.S)
    items = re.findall(pattern,html)  
    print(items)
    
    return items

結(jié)果：

['某某城市土地規(guī)劃表']

這里主要講解pattern，re.compile()與re.findall()的定義及用法：

1.pattern ：pattern 屬性規(guī)定用于驗(yàn)證輸入字段的正則表達(dá)式。

2.re.compile()：compile() 方法用于在腳本執(zhí)行過(guò)程中編譯正則表達(dá)式，也可用于改變和重新編譯正則表達(dá)式。

舉例：在字符串中全局搜索 "man"，并用 "person" 替換。然后通過(guò) compile() 方法，改變正則表達(dá)式，用 "person" 替換 "man" 或 "woman"，：

<script type="text/javascript">
var str="Every man in the world! Every woman on earth!";
 
patt=/man/g;
str2=str.replace(patt,"person");
//用person取代man
document.write(str2+"<br />");
 
patt=/(wo)?man/g;
patt.compile(patt);
str2=str.replace(patt,"person");
//用person取代man或者woman
document.write(str2);
 
</script>

輸出：（可見第一行中的man都被person取代，出現(xiàn)了woperson,第二行的的man和woman也被person取代，只有person，沒(méi)有其他奇奇怪怪的字符串）

Every person in the world! Every woperson on earth!
Every person in the world! Every person on earth!

3.re.findall()：額，這個(gè)最難搞，主要是為了講解（.*？)

re.findall()函數(shù)是返回某種形式(比如String)中所有與pattern匹配的全部字符串,返回形式為數(shù)組。

下面是findall()函數(shù)的兩種表示形式:(上面的代碼采取的便是第二種形式）：

import re
kk = re.compile(r'\d+')
kk.findall('one1two2three3four4')
#[1,2,3,4]
 
#注意此處findall()的用法，可傳兩個(gè)參數(shù);
kk = re.compile(r'\d+')
re.findall(kk,"one123")
#[1,2,3]

下面的是常用的正則表達(dá)式：

import re
 
str = 'aabbabaabbaa'
 
# 一個(gè)"."就是匹配除 \n (換行符)以外的任意一個(gè)字符
print(re.findall(r'a.b',str))#['aab', 'aab']
 
# *前面的字符出現(xiàn)0次或以上
print(re.findall(r'a*b',str))#['aab', 'b', 'ab', 'aab', 'b']
 
# 貪婪，匹配從.*前面為開始到后面為結(jié)束的所有內(nèi)容
print(re.findall(r'a.*b',str))#['aabbabaabb']
 
# 非貪婪，遇到開始和結(jié)束就進(jìn)行截取，因此截取多次符合的結(jié)果，中間沒(méi)有字符也會(huì)被截取
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
 
# 非貪婪，與上面一樣，只是與上面的相比多了一個(gè)括號(hào)，只保留括號(hào)的內(nèi)容
print(re.findall(r'a(.*?)b',str))#['a', '', 'a']
 
str = '''aabbab
         aabbaa
         bb'''     #后面多加了2個(gè)b
 
# 沒(méi)有把最后一個(gè)換行的aab算進(jìn)來(lái)
print(re.findall(r'a.*?b',str))#['aab', 'ab', 'aab']
 
# re.S不會(huì)對(duì)\n進(jìn)行中斷
print(re.findall(r'a.*?b',str,re.S))#['aab', 'ab', 'aab', 'aa\n         b']

注意'.*?'是對(duì)它的前后部分作為開始結(jié)束部分進(jìn)行截取，而'(.*?)'也是把其前后作為開始結(jié)束，但是只截取括號(hào)部分，不包含開始結(jié)束部分?。。。ㄍ瑫r(shí)在對(duì)前后部分的選擇時(shí)要注意特征明確點(diǎn)，就是與眾不同的的嘛，防止截取出的是其他部分啊）

re.findall中參數(shù)re.S的意義：

1.字符串變?yōu)椋ê竺娑嗉恿?個(gè)b）

str = '''aabbab
         aabbaa
         bb'''

2.參數(shù)無(wú)re.S，沒(méi)有把最后一個(gè)換行的aab算進(jìn)來(lái)

print(re.findall(r'a.*?b',str))
#['aab', 'ab', 'aab']

3.參數(shù)有re.S，不會(huì)對(duì)\n進(jìn)行中斷

print(re.findall(r'a.*?b',str,re.S))
#['aab', 'ab', 'aab', 'aa\n         b']

在我們一開始的代碼中就有re.s,因?yàn)樵谂廊【W(wǎng)頁(yè)的內(nèi)容時(shí)是按照一個(gè)一個(gè)塊的來(lái)爬取，可以理解為并列部分，會(huì)存在/n分行符。

def parse_response(html):
    pattern = re.compile('class=\'tab-details\'>(.*?)</span>',re.S)
    items = re.findall(pattern,html)  
    print(items)
    
    return items

參考：

1.HTML input pattern 屬性

2.Pattern用法(正則表達(dá)式)

3.JavaScript compile() 方法

4.Python 正則表達(dá)re模塊之findall()詳解

總結(jié)

到此這篇關(guān)于Python正則表達(dá)式re.compile()和re.findall()的文章就介紹到這了,更多相關(guān)Python正則re.compile()和re.findall()內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: