腳本之家服務器常用軟件

快捷導航

Python正則表達式基本原理

更新時間：2023年04月09日 10:37:20 作者：愛吃餅干的小白鼠

正則表達式是一個特殊的符號系列，它可以幫助我們檢查某個字符串和某種模式匹配。在python中，re庫擁有全部的正則表達式的功能。想了解更多的小伙伴可以參考閱讀本文

??正則表達式

大家好，大家都聽過正則表達式，卻不知道正則表達式干什么的。正則表達式是一個特殊的符號系列，它可以幫助我們檢查某個字符串和某種模式匹配。在python中，re庫擁有全部的正則表達式的功能。

今天，我們來深入的了解一下。我們知道正則表達式是處理字符串的強大工具，它有自己的語法結(jié)構(gòu)，什么匹配啊，都不算什么。

正則表達式是什么？

正則表達式，又稱規(guī)則表達式，(英語:Regular Expression，在代碼中常簡寫為 regex、regexp 或 RE)，它是計算機科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式的文本。許多程序設計語言都支持利用正則表達式進行字符串操作。例如在 Perl 中內(nèi)建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由 Unix 中的工具軟件普及開的。正則表達式是對字符串(包括普通字符(例如，a 到 z 之間的字母)和特殊字符(稱為"元字符"))操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個"規(guī)則字符串"，這個"規(guī)則字符串"用來表達對字符串的一種過濾邏輯。正則表達式是一種文本模式，模式描述在搜索文本時要匹配的一個或多個字符串。

??1.實例引入

說了一大堆廢話，大家可能還是云里霧里的，我們通過實例來說明一下，我們可以用正則表達式測試工具，或者python都可以，首先，我們輸入一段文本。

hello，my name is Tina，my phone number is 123456 and my web is http://tina.com.

                               [a-zA-z]+://[^\s]*

我們就可以獲取網(wǎng)頁鏈接，也就是文本中的url，是不是很神奇？

這是因為它有自己的匹配規(guī)則，部分如下。

模式	描述
.	任意字符
*	0個或者多個表達式
+	一個或者多個表達式

關于更多的匹配規(guī)則可自行查閱。

?,*,+,\d,\w 都是等價字符

?等價于匹配長度{0,1}

*等價于匹配長度{0,}

+等價于匹配長度{1,}

\d 等價于[0-9]

\D 等價于[^0-9]

\w 等價于[A-Za-z_0-9]

\W 等價于[^A-Za-z_0-9]

??2.match()

這里介紹一個常用的匹配方法——match（），向他傳入要匹配的字符串以及正則表達式，就可以檢測這個正則表達式是否匹配字符串。

?匹配目標

res = re.match('hello\s(\d+)sword')

?貪婪匹配

res = re.match('hello.*(\d+)sword')

??3.findall（）

我們最常用的就是這個，我們看看這個是如何使用的。

import re
 
useData = str(input('請輸入字符串數(shù)據(jù):'))
 
'''
匹配字符串中的數(shù)字,+是匹配前面的子表達式一次或多次
'''
digital = re.findall('\d+',useData)
 
print(digital)

我們看看運行結(jié)果

findall()函數(shù)是返回所有匹配到的字符串,返回值的數(shù)據(jù)類型為列表。

??常用符號

我們再來說說正則表達式的常用符號吧。

“.”字符為匹配任意單個字符。

“\”字符為轉(zhuǎn)義字符。

“[…]”為字符集。

“(.*?)” 是python爬蟲最常用的一個字符，叫貪心算法，可以匹配任意的字符。

下面我們看一個示例代碼。

import re
 
a=‘xxixxjshdxxlovexxsfhxxpythonxx'
 
data=re.findall(‘xx(.*?)xx')
 
print(data)

我們運行一下，看下效果。

運行結(jié)果
[‘I’ ,‘love’,‘python’]

??特殊字符

所謂特殊字符，就是一些有特殊含義的字符，比如講 runoo*b 中的，簡單的說就是表示任何字符串的意思。如果要查找字符串中的 * 符號，則需要對 * 進行轉(zhuǎn)義，即在其前加一個 \，runo*ob 匹配字符串 runo\*ob。

許多元字符要求在試圖匹配它們時特別對待。若要匹配這些特殊字符，必須首先使字符"轉(zhuǎn)義"，即，將反斜杠字符\ 放在它們前面。下表列出了正則表達式中的特殊字符：

特別字符	描述
$	匹配輸入字符串的結(jié)尾位置。如果設置了 RegExp 對象的 Multiline 屬性，則 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身，請使用 $。
()	標記一個子表達式的開始和結(jié)束位置。子表達式可以獲取供以后使用。要匹配這些字符，請使用 ( 和 )。
*	匹配前面的子表達式零次或多次。要匹配 * 字符，請使用 *。
+	匹配前面的子表達式一次或多次。要匹配 + 字符，請使用 +。
.	匹配除換行符 \n 之外的任何單字符。要匹配 . ，請使用 . 。

概念說了一大堆，大家可能也記不住，我直接說幾個案例，大家就能明白其他的道理。

這是某網(wǎng)的HTML，部分片段如下：

<span class=“price”>§<i>123</i></span>
 
<span class=“price”>§<i>133</i></span>
 
<span class=“price”>§<i>156</i></span>
 
<span class=“price”>§<i>189</i></span>

大家會發(fā)現(xiàn)只有中間的一段不一樣，而不一樣的數(shù)據(jù)就是我們想要的，我們怎么用正則表達式提取出來呢.

<span class=“price”>§<i>(.*?)</i></span>

就可以了，我們看看效果吧。

123
133
156
189

??總結(jié)

我們可以從HTML代碼提取我們想要的數(shù)據(jù)。我們知道正則表達式就是其中一個有效的辦法。通過本文我們基本了解了其中的原理。后面我們將通過兩個具體案例來加深對正則表達式的理解。

到此這篇關于Python正則表達式基本原理的文章就介紹到這了,更多相關Python正則表達式內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

軟件下載

源碼下載

軟件編程

網(wǎng)絡編程

在線工具

數(shù)據(jù)庫

CMS

常用工具

Python正則表達式基本原理

目錄

??正則表達式

正則表達式是什么？

??1.實例引入

??2.match()

?匹配目標

?貪婪匹配

??3.findall（）

??常用符號

??特殊字符

??總結(jié)

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

Python正則表達式基本原理

目錄

??正則表達式

正則表達式是什么？

??1.實例引入

??2.match()

?匹配目標

?貪婪匹配

??3.findall（）

??常用符號

??特殊字符

??總結(jié)

相關文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

正則表達式是什么？