python中如何使用正則表達式提取數(shù)據(jù)

更新時間：2023年02月06日 14:16:21 作者：公子清羽

這篇文章主要介紹了python中如何使用正則表達式提取數(shù)據(jù)問題。具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教

模式	描述
^	匹配字符串的開頭
$	匹配字符串的末尾。
.	匹配任意字符，除了換行符，當re.DOTALL標記被指定時，則可以匹配包括換行符的任意字符。
[...]	用來表示一組字符,單獨列出：[amk] 匹配 'a'，'m'或'k'
[^...]	不在[]中的字符：[^abc] 匹配除了a,b,c之外的字符。
re*	*匹配0次或多次。貪婪方式，re代表正則表達式
re+	+匹配1次或多次。
re?	?匹配0次或1次，非貪婪方式，匹配0次指表達式后面為空的也匹配
re{ n}	連續(xù)匹配 n 個前面表達式。例如， o{2}，連續(xù)匹配兩次o, 不能匹配 "Bob" 中的 "o"，但是能匹配 "food" 中的兩個 o。
re{ n,}	匹配 n 個前面表達式。例如， o{2,} 不能匹配"Bob"中的"o"，但能匹配 "foooood"中的所有 o。"o{1,}" 等價于 "o+"。"o{0,}" 則等價于 "o*"。
re{ n, m}	表示匹配連續(xù)的前面的表達式至少n次，至多 m 次。表達式油{3,4} 就表示匹配連續(xù)的油字至少3次，至多 4 次
a\| b	匹配a或b
(re)	對正則表達式分組并記住匹配的文本

常用正則表達式實例

字符匹配

實例	描述
python	匹配 "python".

字符類

實例	描述
[Pp]ython	匹配 "Python" 或 "python"
rub[ye]	匹配 "ruby" 或 "rube"
[aeiou]	匹配中括號內(nèi)的任意一個字母
[0-9]	匹配任何數(shù)字。類似于 [0123456789]
[a-z]	匹配任何小寫字母
[A-Z]	匹配任何大寫字母
[a-zA-Z0-9]	匹配任何字母及數(shù)字
[^aeiou]	除了aeiou字母以外的所有字符
[^0-9]	匹配除了數(shù)字外的字符

特殊字符類

實例	描述
.	匹配除 "\n" 之外的任何單個字符。要匹配包括 '\n' 在內(nèi)的任何字符，請使用象 '[.\n]' 的模式。
\d	匹配一個數(shù)字字符。等價于 [0-9]。
\D	匹配一個非數(shù)字字符。等價于 [^0-9]。
\s	匹配任何空白字符，包括空格、制表符、換頁符等等。等價于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等價于 [^ \f\n\r\t\v]。
\w	匹配包括下劃線的任何單詞字符。等價于'[A-Za-z0-9_]'。
\W	匹配任何非單詞字符。等價于 '[^A-Za-z0-9_]'。

re.match只匹配字符串的開始，如果字符串開始不符合正則表達式，則匹配失敗，函數(shù)返回None；而re.search匹配整個字符串，直到找到第一個匹配。

# re.match()函數(shù)只能從起始的位置匹配，否則返回None
import re
 
matchObj = re.match('www', 'www.runoob.com')
print(re.match('www', 'www.runoob.com').span())  # 在起始位置匹配
print(re.match('com', 'www.runoob.com'))  # 不在起始位置匹配
# (0, 3)
# None
 
# 使用group(num) 或 groups() 函數(shù)來獲取用來匹配的正在表達式提取的值。
if matchObj:
    print("matchObj.group() : ", matchObj.group())
    # 執(zhí)行結果是matchObj.group() :  www
    # matchObj.group() 等同于 matchObj.group(0)，表示匹配到的完整文本字符
    # print ("matchObj.group(1) : ", matchObj.group(1))
    # print ("matchObj.group(2) : ", matchObj.group(2))
 
# re.search 掃描整個字符串并返回第一個成功的匹配。
import re
 
line = "Cats are smarter than dogs";
 
searchObj = re.search(r'(.*) are (.*?) ', line, re.M | re.I)
 
if searchObj:
    print("searchObj.group() : ", searchObj.group())
    print("searchObj.group(1) : ", searchObj.group(1))
    print("searchObj.group(2) : ", searchObj.group(2))
# 執(zhí)行結果
# searchObj.group() :  Cats are smarter
# searchObj.group(1) :  Cats
# searchObj.group(2) :  smarter
 
# re.sub()用于替換字符串中的匹配項
 
import re
 
phone = "2004-959-559 # 這是一個國外電話號碼"
 
# 刪除字符串中的 Python注釋,$匹配字符串的末尾。
# 把匹配到的字符串替換為空字符串
num = re.sub(r'#.*$', "", phone)
print("電話號碼是: ", num)
# 電話號碼是:  2004-959-559
# 刪除非數(shù)字(-)的字符串,\D 匹配任意非數(shù)字
num = re.sub(r'\D', "", phone)
print("電話號碼是 : ", num)
# 電話號碼是 :  2004959559
"""
findall在字符串中找到正則表達式所匹配的所有子串，并返回一個列表，如果沒有找到匹配的，則返回空列表。
注意： match 和 search 是匹配一次 findall 匹配所有。
"""
import re
 
pattern = re.compile(r'\d+')  # 創(chuàng)建個正著表達式對象，查找數(shù)字
result1 = pattern.findall('runoob 123 google 456')
result2 = pattern.findall('run88oob123google456', 0, 10)
result3 = pattern.search('runoob 123 google 456')
# 123 只匹配了一次，匹配首個符合要求的字符串
 
print(result1)
print(result2)
print(result3.group())
 
# 執(zhí)行結果：
# ['123', '456']
# ['88', '12']
# 123

re.compile 函數(shù)

compile 函數(shù)用于編譯正則表達式，生成一個正則表達式（ Pattern ）對象，供 match() 和 search() 這兩個函數(shù)使用。

語法格式為：

import re
pattern = re.compile(r'\d+')  # 用于匹配至少一個數(shù)字
m = pattern.match('one12twothree34four')  # 查找頭部，沒有匹配
print(m)
# None
m = pattern.match('one12twothree34four', 2, 10)  # 從'e'的位置開始匹配，沒有匹配
print(m)
# None
m = pattern.match('one12twothree34four', 3, 10)  # 從'1'的位置開始匹配，正好匹配
print(m)  # 返回一個 Match 對象
# <re.Match object; span=(3, 5), match='12'>
print(m.group(0))  # 可省略 0,獲得整個匹配的子串時，可直接使用 group() 或 group(0)；
# '12'
print(m.start(0))  # 可省略 0,獲取分組匹配的子串在整個字符串中的起始位置（子串第一個字符的索引），參數(shù)默認值為 0；
# 3
print(m.end(0))  # 可省略 0,獲取分組匹配的子串在整個字符串中的結束位置（子串最后一個字符的索引+1），參數(shù)默認值為 0；
5
print(m.span(0))  # 可省略 0,返回 (start(group), end(group))。
# (3, 5)

執(zhí)行結果：

None
None
<re.Match object; span=(3, 5), match='12'>
12
3
5
(3, 5)

括號()-分組

括號稱之為正則表達式的組選擇。

組就是把正則表達式匹配的內(nèi)容里面其中的某些部分標記為某個組。

我們可以在正則表達式中標記多個組

為什么要有組的概念呢？因為我們往往需要提取已經(jīng)匹配的內(nèi)容里面的某些部分的信息。

前面，我們有個例子，從下面的文本中，選擇每行逗號前面的字符串，也包括逗號本身。

蘋果，蘋果是綠色的
橙子，橙子是橙色的
香蕉，香蕉是黃色的

就可以這樣寫正則表達式 ^.*， 。

但是，如果我們要求 不要包括逗號 呢？

當然不能直接這樣寫 ^.*

因為最后的逗號是特征所在，如果去掉它，就沒法找逗號前面的了。

但是把逗號放在正則表達式中，又會包含逗號。

解決問題的方法就是使用組選擇符：括號。

我們這樣寫 ^(.*)， ，結果如下

大家可以發(fā)現(xiàn)，我們把要從整個表達式中提取的部分放在括號中，這樣水果的名字就被單獨的放在組 group 中了。

對應的Python代碼如下

content = '''蘋果，蘋果是綠色的
橙子，橙子是橙色的
香蕉，香蕉是黃色的'''
 
import re
p = re.compile(r'^(.*)，', re.MULTILINE)
for one in  p.findall(content):
    print(one)

多個分組時，怎么取每個分組的值。

比如，我們要從下面的文本中，提取出每個人的名字和對應的手機號

張三，手機號碼15945678901
李四，手機號碼13945677701
王二，手機號碼13845666901

可以使用這樣的正則表達式 ^(.+)，.+(\d{11})

可以寫出如下的代碼

content = '''張三，手機號碼15945678901
李四，手機號碼13945677701
王二，手機號碼13845666901'''
 
import re
 
p = re.compile(r'^(.+)，.+(\d{11})', re.MULTILINE)
print(p.findall(content))
#findall()方法返回的是列表
m = p.search(content)
#列表不能調(diào)用group，因此需使用search()方法，但search方法只能匹配第一個符合的
print(m.group(1))
print(m.group(2))
for one in p.findall(content):
    print(one)
    print(type(one))
 
#執(zhí)行結果
# [('張三', '15945678901'), ('李四', '13945677701'), ('王二', '13845666901')]
# 張三
# 15945678901
# ('張三', '15945678901')
# <class 'tuple'>
# ('李四', '13945677701')
# <class 'tuple'>
# ('王二', '13845666901')
# <class 'tuple'>

當有多個分組的時候，我們可以使用 (?P<分組名>...) 這樣的格式，給每個分組命名。

這樣做的好處是，更方便后續(xù)的代碼提取每個分組里面的內(nèi)容

比如

import re
p = re.compile(r'^(?P<name>.+)，.+(?P<phone>\d{11})', re.MULTILINE)
print(p.finditer(content))
# 返回string中所有與pattern相匹配的全部字串，返回形式為迭代器。
for match in p.finditer(content):
    print(match.group('name'))
    print(match.group('phone'))
 
# 執(zhí)行結果
# <callable_iterator object at 0x00000000027C2518>
# 張三
# 15945678901
# 李四
# 13945677701
# 王二
# 13845666901

總結：正則若匹配成功，match()/search()返回的是Match對象，finditer()返回的是Match對象的迭代器，獲取匹配結果需要調(diào)用Match對象的group()、groups或group(index)方法。

group()：母串中與模式pattern匹配的子串；
group(0)：結果與group()一樣；
groups()：所有group組成的一個元組，group(1)是字符串中第一個匹配成功的子串分組，group(2)是第二個，依次類推，如果index超了邊界，拋出IndexError；
findall()：返回的就是所有匹配的子串數(shù)組，就是子串元組組成的列表，例如上面的例子，母串中的第一行組成一個元組，第二行組成一個元組，這些元組共同構成一個list，就是findall()的返回結果。

方括號-匹配幾個字符之一

方括號表示要匹配指定的幾個字符之一。

比如

[abc] 可以匹配 a, b, 或者 c 里面的任意一個字符。等價于 [a-c] 。

[a-c] 中間的 - 表示一個范圍從a 到 c。

如果你想匹配所有的小寫字母，可以使用 [a-z]

一些元字符在方括號內(nèi) 失去了魔法，變得和普通字符一樣了。

比如

[akm.] 匹配 a k m . 里面任意一個字符

這里 . 在括號里面不在表示匹配任意字符了，而就是表示匹配 . 這個字符

如果在方括號中使用 ^ ，表示 非 方括號里面的字符集合。

比如

content = 'a1b2c3d4e5'
 
import re
p = re.compile(r'[^\d]' )
for one in  p.findall(content):
    print(one)

[^\d] 表示，選擇非數(shù)字的字符

輸出結果為：

a
b
c
d
e

切割字符串

字符串對象的 split 方法只適用于簡單的字符串分割。有時，你需要更加靈活的字符串切割。

比如，我們需要從下面字符串中提取武將的名字。

names = '關羽; 張飛, 趙云,馬超, 黃忠  李逵'

我們發(fā)現(xiàn)這些名字之間，有的是分號隔開，有的是逗號隔開，有的是空格隔開，而且分割符號周圍還有不定數(shù)量的空格

這時，可以使用正則表達式里面的 split 方法：

import re
 
names = '關羽; 張飛, 趙云,   馬超, 黃忠  李逵'
 
namelist = re.split(r'[;,\s]\s*', names)
print(namelist)

正則表達式 [;,\s]\s* 指定了，分割符為分號、逗號、空格里面的任意一種均可，并且該符號周圍可以有不定數(shù)量的空格。

字符串替換

匹配模式替換

字符串對象的 replace 方法只適應于簡單的替換。有時，你需要更加靈活的字符串替換。

比如，我們需要在下面這段文本中所有的鏈接中找到所以 /avxxxxxx/ 這種以 /av 開頭，后面接一串數(shù)字，這種模式的字符串。

然后，這些字符串全部替換為 /cn345677/ 。

names = '''
下面是這學期要學習的課程：
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是牛頓第2運動定律
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是畢達哥拉斯公式
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是切割磁力線
'''

被替換的內(nèi)容不是固定的，所以沒法用字符串的replace方法。

這時，可以使用正則表達式里面的 sub 方法：

import re
 
names = '''
下面是這學期要學習的課程：
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是牛頓第2運動定律
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是畢達哥拉斯公式
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是切割磁力線
'''
 
newStr = re.sub(r'/av\d+?/', '/cn345677/' , names)
print(newStr)

sub 方法就是也是替換字符串，但是被替換的內(nèi)容用正則表達式來表示符合特征的所有字符串。

比如，這里就是第一個參數(shù) /av\d+?/ 這個正則表達式，表示以 /av 開頭，后面是一串數(shù)字，再以 / 結尾的這種特征的字符串，是需要被替換的。

第二個參數(shù)，這里是 '/cn345677/' 這個字符串，表示用什么來替換。

第三個參數(shù)是源字符串。

指定替換函數(shù)

剛才的例子中，我們用來替換的是一個固定的字符串 /cn345677/。

如果，我們要求，替換后的內(nèi)容的是原來的數(shù)字+6，比如 /av66771949/ 替換為 /av66771955/ 。

怎么辦？

這種更加復雜的替換，我們可以把 sub的第2個參數(shù) 指定為一個函數(shù) ，該函數(shù)的返回值，就是用來替換的字符串。

如下

import re
 
names = '''
下面是這學期要學習的課程：
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是牛頓第2運動定律
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是畢達哥拉斯公式
<a  target='_blank'>點擊這里，邊看視頻講解，邊學習以下內(nèi)容</a>
這節(jié)講的是切割磁力線
'''
 
# 替換函數(shù)，參數(shù)是 Match對象
def subFunc(match):
    # Match對象 的 group(0) 返回的是整個匹配上的字符串
    src = match.group(0)
    
    # Match對象 的 group(1) 返回的是第一個group分組的內(nèi)容
    number = int(match.group(1)) + 6
    dest = f'/av{number}/'
 
    print(f'{src} 替換為 {dest}')
 
    # 返回值就是最終替換的字符串
    return dest
 
newStr = re.sub(r'/av(\d+?)/', subFunc , names)
print(newStr)

# 正則表達式提取
import re
 
content = '''
Python3 高級開發(fā)工程師 上海互教教育科技有限公司上海-浦東新區(qū)2萬/月02-18滿員
測試開發(fā)工程師（C++/python） 上海墨鹍數(shù)碼科技有限公司上海-浦東新區(qū)2.5萬/每月02-18未滿員
Python3 開發(fā)工程師 上海德拓信息技術股份有限公司上海-徐匯區(qū)1.3萬/每月02-18剩余11人
測試開發(fā)工程師（Python） 赫里普（上海）信息科技有限公司上海-浦東新區(qū)1.1萬/每月02-18剩余5人
Python高級開發(fā)工程師 上海行動教育科技股份有限公司上海-閔行區(qū)2.8萬/月02-18剩余255人
python開發(fā)工程師 上海優(yōu)似騰軟件開發(fā)有限公司上海-浦東新區(qū)2.5萬/每月02-18滿員
'''
 
for one in  re.findall(r'([\d.]+)萬/每{0,1}月', content):
    print(one)

#非正則表達式提取
content = '''
Python3 高級開發(fā)工程師 上?；ソ探逃萍加邢薰旧虾?浦東新區(qū)2萬/月02-18滿員
測試開發(fā)工程師（C++/python） 上海墨鹍數(shù)碼科技有限公司上海-浦東新區(qū)2.5萬/每月02-18未滿員
Python3 開發(fā)工程師 上海德拓信息技術股份有限公司上海-徐匯區(qū)1.3萬/每月02-18剩余11人
測試開發(fā)工程師（Python） 赫里普（上海）信息科技有限公司上海-浦東新區(qū)1.1萬/每月02-18剩余5人
Python高級開發(fā)工程師 上海行動教育科技股份有限公司上海-閔行區(qū)2.8萬/月02-18剩余255人
python開發(fā)工程師 上海優(yōu)似騰軟件開發(fā)有限公司上海-浦東新區(qū)2.5萬/每月02-18滿員
'''
 
# 將文本內(nèi)容按行分割，放入列表，按\r\n,\r（回車）,\n（換行）分割
lines = content.splitlines()
 
# print(lines)
for line in lines:
    # 查找'萬/月' 在 字符串中什么地方
    # find() 方法檢測字符串中是否包含子字符串 str ,如果包含的話，返回子字符串開始的索引，
    # 不包含的話返回-1
    pos2 = line.find('萬/月')
    # print(pos2)
    if pos2 < 0:
        # 查找'萬/每月' 在 字符串中什么地方
        pos2 = line.find('萬/每月')
        # 都找不到，滿足條件，觸發(fā)continue，不執(zhí)行后面的代碼，跳到循環(huán)開頭進入下一輪循環(huán)
        if pos2 < 0:
            continue
    # 執(zhí)行到這里，說明可以找到薪資關鍵字
    # 接下來分析 薪資 數(shù)字的起始位置
    # 方法是 找到 pos2 前面薪資數(shù)字開始的位置
    idx = pos2 - 1
 
    # 只要是數(shù)字或者小數(shù)點，就繼續(xù)往前面找
    # isdigit()方法檢測字符串是否只由數(shù)字組成，如果字符串只包含數(shù)字則返回 True 否則返回 False
    while line[idx].isdigit() or line[idx] == '.':
        idx -= 1
 
    # 現(xiàn)在 idx 指向 薪資數(shù)字前面的那個字，
    # 所以薪資開始的 索引 就是 idx+1
    pos1 = idx + 1
    print(line[pos1:pos2])

總結

以上為個人經(jīng)驗，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

python3整數(shù)反轉(zhuǎn)的實現(xiàn)方法
這篇文章主要介紹了python3整數(shù)反轉(zhuǎn)的實現(xiàn)方法，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2021-04-04
Pycharm新手使用教程(圖文詳解)
這篇文章主要介紹了Pycharm新手使用教程(圖文詳解)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-09-09
Python圖片驗證碼降噪和8鄰域降噪
這篇文章主要介紹了Python圖片驗證碼降噪和8鄰域降噪的相關內(nèi)容，需要的小伙伴可以參考下面文章
2021-08-08
PyQt5組件讀取參數(shù)的實例
今天小編就為大家分享一篇PyQt5組件讀取參數(shù)的實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-06-06
Python Pandas 刪除列操作
這篇文章主要介紹了Python Pandas 刪除列操作，主要操作使用del和drop方法刪除DataFrame中的列，使用drop方法一次刪除多列,需要的朋友可以參考一下
2022-03-03
如何使用pytorch構建高斯混合模型分類器
本文是一個利用Pytorch構建高斯混合模型分類器的嘗試,我們將從頭開始構建高斯混合模型(GMM),這樣可以對高斯混合模型有一個最基本的理解,本文不會涉及數(shù)學,需要的朋友可以參考下
2023-10-10
學習Python需要哪些工具
這篇文章主要介紹了學習Python需要哪些工具，幫助大家開始學習python編程，感興趣的朋友可以了解下
2020-09-09
python自然語言處理之字典樹知識總結
這篇文章主要介紹了python自然語言處理之字典樹知識總結,文中有非常詳細的代碼示例,對正在學習python的小伙伴們有非常好的幫助,需要的朋友可以參考下
2021-04-04
django-csrf使用和禁用方式
這篇文章主要介紹了django-csrf使用和禁用方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-03-03
如何更改Pycharm配置文件的存放路徑
Pycharm配置文件默認是放在C盤的,修改存放位置,這樣系統(tǒng)重裝的時候就不會不見了,下面這篇文章主要給大家介紹了關于如何更改Pycharm配置文件的存放路徑的相關資料,需要的朋友可以參考下
2022-12-12