欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python正則表達式知識匯總

 更新時間:2017年09月22日 08:33:57   作者:GreatAnt  
本文介紹了Python正則表達式的相關(guān)基礎(chǔ)知識,本文的內(nèi)容不包括如何編寫高效的正則表達式、如何優(yōu)化正則表達式,這些主題請查看其他教程。

1. 正則表達式語法

  1.1 字符與字符類
     1 特殊字符:\.^$?+*{}[]()|
      以上特殊字符要想使用字面值,必須使用\進行轉(zhuǎn)義
     2 字符類
         1. 包含在[]中的一個或者多個字符被稱為字符類,字符類在匹配時如果沒有指定量詞則只會匹配其中的一個。
       2. 字符類內(nèi)可以指定范圍,比如[a-zA-Z0-9]表示a到z,A到Z,0到9之間的任何一個字符
       3. 左方括號后跟隨一個^,表示否定一個字符類,比如[^0-9]表示可以匹配一個任意非數(shù)字的字符。
       4. 字符類內(nèi)部,除了\之外,其他特殊字符不再具備特殊意義,都表示字面值。^放在第一個位置表示否定,放在其他位置表示^本身,-放在中間表示范圍,放在字符類中的第一個字符,則表示-本身。

      5. 字符類內(nèi)部可以使用速記法,比如\d \s \w
    3 速記法
       . 可以匹配除換行符之外的任何字符,如果有re.DOTALL標志,則匹配任意字符包括換行
       \d 匹配一個Unicode數(shù)字,如果帶re.ASCII,則匹配0-9
      \D 匹配Unicode非數(shù)字
       \s 匹配Unicode空白,如果帶有re.ASCII,則匹配\t\n\r\f\v中的一個
       \S 匹配Unicode非空白
       \w 匹配Unicode單詞字符,如果帶有re.ascii,則匹配[a-zA-Z0-9_]中的一個
       \W 匹配Unicode非單子字符

  1.2 量詞
     1. ? 匹配前面的字符0次或1次
     2. * 匹配前面的字符0次或多次
     3. + 匹配前面的字符1次或者多次
     4. {m} 匹配前面表達式m次
     5. {m,} 匹配前面表達式至少m次
     6. {,n} 匹配前面的正則表達式最多n次
     7. {m,n} 匹配前面的正則表達式至少m次,最多n次
     注意點:
       以上量詞都是貪婪模式,會盡可能多的匹配,如果要改為非貪婪模式,通過在量詞后面跟隨一個?來實現(xiàn)

  1.3 組與捕獲
     1 ()的作用:
       1. 捕獲()中正則表達式的內(nèi)容以備進一步利用處理,可以通過在左括號后面跟隨?:來關(guān)閉這個括號的捕獲功能
      2. 將正則表達式的一部分內(nèi)容進行組合,以便使用量詞或者|
    2 反響引用前面()內(nèi)捕獲的內(nèi)容:
       1. 通過組號反向引用
         每一個沒有使用?:的小括號都會分配一個組好,從1開始,從左到右遞增,可以通過\i引用前面()內(nèi)表達式捕獲的內(nèi)容
       2. 通過組名反向引用前面小括號內(nèi)捕獲的內(nèi)容
         可以通過在左括號后面跟隨?P<name>,尖括號中放入組名來為一個組起一個別名,后面通過(?P=name)來引用 前面捕獲的內(nèi)容。如(? P<word>\w+)\s+(?P=word)來匹配重復(fù)的單詞。
     3 注意點:
       反向引用不能放在字符類[]中使用。

   1.4 斷言與標記
     斷言不會匹配任何文本,只是對斷言所在的文本施加某些約束
     1 常用斷言:
       1. \b 匹配單詞的邊界,放在字符類[]中則表示backspace
      2. \B 匹配非單詞邊界,受ASCII標記影響
       3. \A 在起始處匹配
       4. ^ 在起始處匹配,如果有MULTILINE標志,則在每個換行符后匹配
       5. \Z 在結(jié)尾處匹配
       6. $ 在結(jié)尾處匹配,如果有MULTILINE標志,則在每個換行符前匹配
       7. (?=e) 正前瞻
       8. (?!e) 負前瞻
       9. (?<=e) 正回顧
       10.(?<!e) 負回顧
     2 前瞻回顧的解釋
       前瞻: exp1(?=exp2) exp1后面的內(nèi)容要匹配exp2
      負前瞻: exp1(?!exp2) exp1后面的內(nèi)容不能匹配exp2
      后顧: (?<=exp2)exp1 exp1前面的內(nèi)容要匹配exp2
      負后顧: (?<!exp2)exp1 exp1前面的內(nèi)容不能匹配exp2
      例如:我們要查找hello,但是hello后面必須是world,正則表達式可以這樣寫:"(hello)\s+(?=world)",用來匹配"hello wangxing"和"hello world"只能匹配到后者的hello

  1.5 條件匹配
     (?(id)yes_exp|no_exp):對應(yīng)id的子表達式如果匹配到內(nèi)容,則這里匹配yes_exp,否則匹配no_exp

  1.6 正則表達式的標志
     1. 正則表達式的標志有兩種使用方法
       1. 通過給compile方法傳入標志參數(shù),多個標志使用|分割的方法,如re.compile(r"#[\da-f]{6}\b", re.IGNORECASE|re.MULTILINE)
      2. 通過在正則表達式前面添加(?標志)的方法給正則表達式添加標志,如(?ms)#[\da-z]{6}\b
    2. 常用的標志
       re.A或者re.ASCII, 使\b \B \s \S \w \W \d \D都假定字符串為假定字符串為ASCII
      re.I或者re.IGNORECASE 使正則表達式忽略大小寫
       re.M或者re.MULTILINE 多行匹配,使每個^在每個回車后,每個$在每個回車前匹配
       re.S或者re.DOTALL 使.能匹配任意字符,包括回車
       re.X或者re.VERBOSE 這樣可以在正則表達式跨越多行,也可以添加注釋,但是空白需要使用\s或者[ ]來表示,因為默認的空白不再解釋。如:
         re.compile(r"""
          <img\s +) #標簽的開始
           [^>]*? #不是src的屬性
           src= #src屬性的開始
           (?:
          (?P<quote>["']) #左引號
           (?P<image_name>[^\1>]+?) #圖片名字
           (?P=quote) #右括號
           """,re.VERBOSE|re.IGNORECASE)

2. Python正則表達式模塊

   2.1 正則表達式處理字符串主要有四大功能

     1. 匹配 查看一個字符串是否符合正則表達式的語法,一般返回true或者false
    2. 獲取 正則表達式來提取字符串中符合要求的文本
     3. 替換 查找字符串中符合正則表達式的文本,并用相應(yīng)的字符串替換
     4. 分割 使用正則表達式對字符串進行分割。

   2.2 Python中re模塊使用正則表達式的兩種方法

     1. 使用re.compile(r, f)方法生成正則表達式對象,然后調(diào)用正則表達式對象的相應(yīng)方法。這種做法的好處是生成正則對象之后可以多次使用。
     2. re模塊中對正則表達式對象的每個對象方法都有一個對應(yīng)的模塊方法,唯一不同的是傳入的第一個參數(shù)是正則表達式字符串。此種方法適合于只使用一次的正則表達式。

   2.3 正則表達式對象的常用方法

     1. rx.findall(s,start, end):
      返回一個列表,如果正則表達式中沒有分組,則列表中包含的是所有匹配的內(nèi)容,
       如果正則表達式中有分組,則列表中的每個元素是一個元組,元組中包含子分組中匹配到的內(nèi)容,但是沒有返回整個正則表達式匹配的內(nèi)容
     2. rx.finditer(s, start, end):
      返回一個可迭代對象
       對可迭代對象進行迭代,每一次返回一個匹配對象,可以調(diào)用匹配對象的group()方法查看指定組匹配到的內(nèi)容,0表示整個正則表達式匹配到的內(nèi)容
     3. rx.search(s, start, end):
      返回一個匹配對象,倘若沒匹配到,就返回None
      search方法只匹配一次就停止,不會繼續(xù)往后匹配
     4. rx.match(s, start, end):
      如果正則表達式在字符串的起始處匹配,就返回一個匹配對象,否則返回None
    5. rx.sub(x, s, m):
      返回一個字符串。每一個匹配的地方用x進行替換,返回替換后的字符串,如果指定m,則最多替換m次。對于x可以使用/i或者/g<id>id可以是組名或者編號來引用捕獲到的內(nèi)容。
       模塊方法re.sub(r, x, s, m)中的x可以使用一個函數(shù)。此時我們就可以對捕獲到的內(nèi)容推過這個函數(shù)進行處理后再替換匹配到的文本。
     6. rx.subn(x, s, m):
      與re.sub()方法相同,區(qū)別在于返回的是二元組,其中一項是結(jié)果字符串,一項是做替換的個數(shù)。
     7. rx.split(s, m):分割字符串
       返回一個列表
       用正則表達式匹配到的內(nèi)容對字符串進行分割
       如果正則表達式中存在分組,則把分組匹配到的內(nèi)容放在列表中每兩個分割的中間作為列表的一部分,如:
       rx = re.compile(r"(\d)[a-z]+(\d)")
      s = "ab12dk3klj8jk9jks5"
      result = rx.split(s)
      返回['ab1', '2', '3', 'klj', '8', '9', 'jks5']
    8. rx.flags():正則表達式編譯時設(shè)置的標志
     9. rx.pattern():正則表達式編譯時使用的字符串

   2.4 匹配對象的屬性與方法

    01. m.group(g, ...)
      返回編號或者組名匹配到的內(nèi)容,默認或者0表示整個表達式匹配到的內(nèi)容,如果指定多個,就返回一個元組
     02. m.groupdict(default)
      返回一個字典。字典的鍵是所有命名的組的組名,值為命名組捕獲到的內(nèi)容
       如果有default參數(shù),則將其作為那些沒有參與匹配的組的默認值。
     03. m.groups(default)
      返回一個元組。包含所有捕獲到內(nèi)容的子分組,從1開始,如果指定了default值,則這個值作為那些沒有捕獲到內(nèi)容的組的值
     04. m.lastgroup()
      匹配到內(nèi)容的編號最高的捕獲組的名稱,如果沒有或者沒有使用名稱則返回None(不常用)
    05. m.lastindex()
      匹配到內(nèi)容的編號最高的捕獲組的編號,如果沒有就返回None。
     06. m.start(g):
      當前匹配對象的子分組是從字符串的那個位置開始匹配的,如果當前組沒有參與匹配就返回-1
    07. m.end(g)
      當前匹配對象的子分組是從字符串的那個位置匹配結(jié)束的,如果當前組沒有參與匹配就返回-1
    08. m.span()
      返回一個二元組,內(nèi)容分別是m.start(g)和m.end(g)的返回值
     09. m.re()
      產(chǎn)生這一匹配對象的正則表達式
     10. m.string()
      傳遞給match或者search用于匹配的字符串
     11. m.pos()
      搜索的起始位置。即字符串的開頭,或者start指定的位置(不常用)
    12. m.endpos()
      搜索的結(jié)束位置。即字符串的末尾位置,或者end指定的位置(不常用)

  2.5 總結(jié)

     1. 對于正則表達式的匹配功能,Python沒有返回true和false的方法,但可以通過對match或者search方法的返回值是否是None來判斷
     2. 對于正則表達式的搜索功能,如果只搜索一次可以使用search或者match方法返回的匹配對象得到,對于搜索多次可以使用finditer方法返回的可迭代對象來迭代訪問
     3. 對于正則表達式的替換功能,可以使用正則表達式對象的sub或者subn方法來實現(xiàn),也可以通過re模塊方法sub或者subn來實現(xiàn),區(qū)別在于模塊的sub方法的替換文本可以使用一個函數(shù)來生成
     4. 對于正則表達式的分割功能,可以使用正則表達式對象的split方法,需要注意如果正則表達式對象有分組的話,分組捕獲的內(nèi)容也會放到返回的列表中

相關(guān)文章

  • Pycharm配置lua編譯環(huán)境過程圖解

    Pycharm配置lua編譯環(huán)境過程圖解

    這篇文章主要介紹了Pycharm配置lua編譯環(huán)境過程圖解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-11-11
  • 跟老齊學Python之玩轉(zhuǎn)字符串(1)

    跟老齊學Python之玩轉(zhuǎn)字符串(1)

    本文主要講訴了字符串的定義,變量鏈接到字符串,以及對字符串的簡單操作,都是些非?;A(chǔ)的東西,適合零基礎(chǔ)的Pythoner學習,覺得有用的話,多鼓鼓掌吧
    2014-09-09
  • Python基于easygui實現(xiàn)pdf和word轉(zhuǎn)換小程序

    Python基于easygui實現(xiàn)pdf和word轉(zhuǎn)換小程序

    這篇文章主要為大家詳細介紹了Python如何基于easygui實現(xiàn)pdf和word轉(zhuǎn)換小程序,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起學習一下
    2024-04-04
  • Python圖像處理Pillow庫的安裝使用

    Python圖像處理Pillow庫的安裝使用

    本文詳細介紹了Python第三方庫Pillow的使用,通過導(dǎo)入Pillow庫、打開和保存圖像、基本圖像操作以及圖像處理高級功能的代碼示例,我們了解了Pillow庫的強大功能和靈活性,感興趣的朋友跟隨小編一起看看吧
    2023-07-07
  • Python?Pandas多種添加行列數(shù)據(jù)方法總結(jié)

    Python?Pandas多種添加行列數(shù)據(jù)方法總結(jié)

    在進行數(shù)據(jù)分析時經(jīng)常需要按照一定條件創(chuàng)建新的數(shù)據(jù)列,然后進行進一步分析,下面這篇文章主要給大家介紹了關(guān)于Python?Pandas多種添加行列數(shù)據(jù)方法的相關(guān)資料,需要的朋友可以參考下
    2022-07-07
  • Python 如何批量更新已安裝的庫

    Python 如何批量更新已安裝的庫

    這篇文章主要介紹了Python 如何批量更新已安裝的庫,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-05-05
  • Python實現(xiàn)打印詳細報錯日志,獲取報錯信息位置行數(shù)

    Python實現(xiàn)打印詳細報錯日志,獲取報錯信息位置行數(shù)

    這篇文章主要介紹了Python實現(xiàn)打印詳細報錯日志,獲取報錯信息位置行數(shù)方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • Matplotlib實戰(zhàn)之柱狀圖繪制詳解

    Matplotlib實戰(zhàn)之柱狀圖繪制詳解

    柱狀圖,是一種使用矩形條,對不同類別進行數(shù)值比較的統(tǒng)計圖表,這篇文章主要為大家詳細介紹了如何使用Matplotlib繪制柱狀圖,需要的可以參考下
    2023-08-08
  • Python面向?qū)ο蟪绦蛟O(shè)計之類和對象、實例變量、類變量用法分析

    Python面向?qū)ο蟪绦蛟O(shè)計之類和對象、實例變量、類變量用法分析

    這篇文章主要介紹了Python面向?qū)ο蟪绦蛟O(shè)計之類和對象、實例變量、類變量用法,結(jié)合實例形式分析了Python面向?qū)ο蟪绦蛟O(shè)計中類和對象、實例變量、類變量具體功能、原理、使用方法與操作注意事項,需要的朋友可以參考下
    2020-03-03
  • Python3中的真除和Floor除法用法分析

    Python3中的真除和Floor除法用法分析

    這篇文章主要介紹了Python3中的真除和Floor除法用法,結(jié)合實例形式分析了真除與Floor除法的區(qū)別與使用技巧,需要的朋友可以參考下
    2016-03-03

最新評論