Python正則表達式基本原理
??正則表達式
大家好,大家都聽過正則表達式,卻不知道正則表達式干什么的。正則表達式是一個特殊的符號系列,它可以幫助我們檢查某個字符串和某種模式匹配。在python中,re庫擁有全部的正則表達式的功能。
今天,我們來深入的了解一下。我們知道正則表達式是處理字符串的強大工具,它有自己的語法結(jié)構(gòu),什么匹配啊,都不算什么。
正則表達式是什么?
正則表達式,又稱規(guī)則表達式,(英語:Regular Expression,在代碼中常簡寫為 regex、regexp 或 RE),它是計算機科學的一個概念。正則表達式通常被用來檢索、替換那些符合某個模式的文本。 許多程序設(shè)計語言都支持利用正則表達式進行字符串操作。例如在 Perl 中內(nèi)建了一個功能強大的正則表達式引擎。正則表達式這個概念最初是由 Unix 中的工具軟件普及開的。正則表達式是對字符串(包括普通字符(例如,a 到 z 之間的字母)和特殊字符(稱為"元字符"))操作的一種邏輯公式,就是用事先定義好的一些特定字符、及這些特定字符的組合,組成一個"規(guī)則字符串",這個"規(guī)則字符串"用來表達對字符串的一種過濾邏輯。正則表達式是一種文本模式,模式描述在搜索文本時要匹配的一個或多個字符串。
??1.實例引入
說了一大堆廢話,大家可能還是云里霧里的,我們通過實例來說明一下,我們可以用正則表達式測試工具,或者python都可以,首先,我們輸入一段文本。
hello,my name is Tina,my phone number is 123456 and my web is http://tina.com.
[a-zA-z]+://[^\s]*
我們就可以獲取網(wǎng)頁鏈接,也就是文本中的url,是不是很神奇?
這是因為它有自己的匹配規(guī)則,部分如下。
模式 | 描述 |
. | 任意字符 |
* | 0個或者多個表達式 |
+ | 一個或者多個表達式 |
關(guān)于更多的匹配規(guī)則可自行查閱。
?,*,+,\d,\w 都是等價字符
?等價于匹配長度{0,1}
*等價于匹配長度{0,}
+等價于匹配長度{1,}
\d 等價于[0-9]
\D 等價于[^0-9]
\w 等價于[A-Za-z_0-9]
\W 等價于[^A-Za-z_0-9]
??2.match()
這里介紹一個常用的匹配方法——match(),向他傳入要匹配的字符串以及正則表達式,就可以檢測這個正則表達式是否匹配字符串。
?匹配目標
res = re.match('hello\s(\d+)sword')
?貪婪匹配
res = re.match('hello.*(\d+)sword')
??3.findall()
我們最常用的就是這個,我們看看這個是如何使用的。
import re useData = str(input('請輸入字符串數(shù)據(jù):')) ''' 匹配字符串中的數(shù)字,+是匹配前面的子表達式一次或多次 ''' digital = re.findall('\d+',useData) print(digital)
我們看看運行結(jié)果
findall()函數(shù)是返回所有匹配到的字符串,返回值的數(shù)據(jù)類型為列表。
??常用符號
我們再來說說正則表達式的常用符號吧。
“.”字符為匹配任意單個字符。
“\”字符為轉(zhuǎn)義字符。
“[…]”為字符集。
“(.*?)” 是python爬蟲最常用的一個字符,叫貪心算法,可以匹配任意的字符。
下面我們看一個示例代碼。
import re a=‘xxixxjshdxxlovexxsfhxxpythonxx' data=re.findall(‘xx(.*?)xx') print(data)
我們運行一下,看下效果。
運行結(jié)果
[‘I’ ,‘love’,‘python’]
??特殊字符
所謂特殊字符,就是一些有特殊含義的字符,比如講 runoo*b 中的 ,簡單的說就是表示任何字符串的意思。如果要查找字符串中的 * 符號,則需要對 * 進行轉(zhuǎn)義,即在其前加一個 \,runo*ob 匹配字符串 runo\*ob。
許多元字符要求在試圖匹配它們時特別對待。若要匹配這些特殊字符,必須首先使字符"轉(zhuǎn)義",即,將反斜杠字符\ 放在它們前面。下表列出了正則表達式中的特殊字符:
特別字符 | 描述 |
$ | 匹配輸入字符串的結(jié)尾位置。如果設(shè)置了 RegExp 對象的 Multiline 屬性,則 $ 也匹配 ‘\n’ 或 ‘\r’。要匹配 $ 字符本身,請使用 $。 |
() | 標記一個子表達式的開始和結(jié)束位置。子表達式可以獲取供以后使用。要匹配這些字符,請使用 ( 和 )。 |
* | 匹配前面的子表達式零次或多次。要匹配 * 字符,請使用 *。 |
+ | 匹配前面的子表達式一次或多次。要匹配 + 字符,請使用 +。 |
. | 匹配除換行符 \n 之外的任何單字符。要匹配 . ,請使用 . 。 |
概念說了一大堆,大家可能也記不住,我直接說幾個案例,大家就能明白其他的道理。
這是某網(wǎng)的HTML,部分片段如下:
<span class=“price”>§<i>123</i></span> <span class=“price”>§<i>133</i></span> <span class=“price”>§<i>156</i></span> <span class=“price”>§<i>189</i></span>
大家會發(fā)現(xiàn)只有中間的一段不一樣,而不一樣的數(shù)據(jù)就是我們想要的,我們怎么用正則表達式提取出來呢.
<span class=“price”>§<i>(.*?)</i></span>
就可以了,我們看看效果吧。
123
133
156
189
??總結(jié)
我們可以從HTML代碼提取我們想要的數(shù)據(jù)。我們知道正則表達式就是其中一個有效的辦法。通過本文我們基本了解了其中的原理。后面我們將通過兩個具體案例來加深對正則表達式的理解。
到此這篇關(guān)于Python正則表達式基本原理的文章就介紹到這了,更多相關(guān)Python正則表達式內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python?pandas中read_csv參數(shù)示例詳解
使用pandas做數(shù)據(jù)處理的第一步就是讀取數(shù)據(jù),數(shù)據(jù)源可以來自于各種地方,csv文件便是其中之一,下面這篇文章主要給大家介紹了關(guān)于Python?pandas中read_csv參數(shù)詳解的相關(guān)資料,需要的朋友可以參考下2023-01-01python深度學習之多標簽分類器及pytorch實現(xiàn)源碼
這篇文章主要為大家介紹了python深度學習之多標簽分類器的使用說明及pytorch的實現(xiàn)源碼,有需要的朋友可以借鑒參考下,希望能夠有所幫助2022-01-01python使用os.listdir和os.walk獲得文件的路徑的方法
本篇文章主要介紹了python使用os.listdir和os.walk獲得文件的路徑的方法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-12-12Python中threading模塊join函數(shù)用法實例分析
這篇文章主要介紹了Python中threading模塊join函數(shù)用法,以實例形式較為詳細的分析了join函數(shù)的功能與使用方法,需要的朋友可以參考下2015-06-06