解析PHP中的正則表達式以及模式匹配
更新時間:2013年06月19日 17:49:48 作者:
本篇文章是對PHP中的正則表達式及模式匹配進行了詳細的分析介紹,需要的朋友參考下
PHP中對于正則處理文本提供了兩種方式,一種是PCRE方式(PCRE庫是一個實現(xiàn)了與perl 5在語法和語義上略有差異(詳見下文)的正則表達式模式匹配功能的函數(shù)集. 當前的實現(xiàn)對應于perl 5.005.);另一個是POSIX方式。
PCRE 函數(shù)庫中的函數(shù)使用的模式語法非常類似perl. 表達式必須用分隔符閉合, 比如一個正斜杠(/). 分隔符可以使任意非字母數(shù)字, 除反斜杠(\)和空字節(jié)之外的非空白ascii字符. 如果分隔符 在表達式中使用, 需要使用反斜線進行轉(zhuǎn)義. 自php 4.0.4開始, 可以使用perl樣式的(), {}, []以及<>作為分隔符. 更詳細的解釋參見模式語法.
結(jié)束分隔符后面可以緊跟模式修飾符來影響匹配效果. 參見模式修飾符.
PCRE的模式修正符
i (PCRE_CASELESS)
如果設(shè)定此修正符,模式中的字符將同時匹配大小寫字母。
s(PCRE_DOTALL)
如果設(shè)定了此修正符,模式中的圓點元字符(.)匹配所有的字符,包括換行符。沒有此設(shè)定的話,則不包括換行符。這和 Perl 的 /s 修正符是等效的。排除字符類例如 [^a] 總是匹配換行符的,無論是否設(shè)定了此修正符。
m(PCRE_MULTILINE)
默認情況下,PCRE 將目標字符串作為單一的一“行”字符所組成的(甚至其中包含有換行符也是如此)?!靶衅鹗肌痹址╚)僅僅匹配字符串的起始,“行結(jié)束”元字符($)僅僅匹配字符串的結(jié)束,或者最后一個字符是換行符時其前面(除非設(shè)定了 D 修正符)。這和 Perl 是一樣的。當設(shè)定了此修正符,“行起始”和“行結(jié)束”除了匹配整個字符串開頭和結(jié)束外,還分別匹配其中的換行符的之后和之前。這和 Perl 的 /m 修正符是等效的。如果目標字符串中沒有“\n”字符或者模式中沒有 ^ 或 $,則設(shè)定此修正符沒有任何效果。
x (PCRE_EXTENDED)
如果設(shè)置了這個修飾符, 模式中的沒有經(jīng)過轉(zhuǎn)義的或不在字符類中的空白數(shù)據(jù)字符總會被忽略, 并且位于一個未轉(zhuǎn)義的字符類外部的#字符和下一個換行符之間的字符也被忽略. 這個修飾符 等同于perl中的/x修飾符, 使被編譯模式中可以包含注釋. 注意: 這僅用于數(shù)據(jù)字符. 空白字符 還是不能在模式的特殊字符序列中出現(xiàn), 比如序列(?(引入了一個條件子組(譯注: 這種語法定義的 特殊字符序列中如果出現(xiàn)空白字符會導致編譯錯誤. 比如( ?(就會導致錯誤.).
e (PREG_REPLACE_EVAL)
如果這個修飾符設(shè)置了, preg_replace()在進行了對替換字符串的 后向引用替換之后, 將替換后的字符串作為php代碼評估之行(eval函數(shù)方式), 并使用之行結(jié)果 作為實際參與替換的字符串. 單引號, 雙引號, 反斜線(\)和NULL字符在 后向引用替換時會被用反斜線轉(zhuǎn)義.
僅preg_replace()使用此修飾符, 其他PCRE函數(shù)忽略此修飾符.
A (PCRE_ANCHORED)
如果設(shè)置了這個修飾符, 模式被強制為"錨定"模式, 也就是說約束匹配使其僅從 目標字符串的開始位置搜索. 這個效果同樣可以使用適當?shù)哪J綐?gòu)造出來, 并且 這也是perl種實現(xiàn)這種模式的唯一途徑.
D (PCRE_DOLLAR_ENDONLY)
如果這個修飾符被設(shè)置, 模式中的元字符美元符號僅僅匹配目標字符串的末尾. 如果這個修飾符 沒有設(shè)置, 當字符串以一個換行符結(jié)尾時, 美元符號還會匹配該換行符(但不會匹配之前的任何換行符). 如果設(shè)置了修飾符m, 這個修飾符被忽略. 在perl中沒有與此修飾符等同的修飾符.
S
當一個模式需要多次使用的時候, 為了得到匹配速度的提升, 值得花費一些時間 對其進行一些額外的分析. 如果設(shè)置了這個修飾符, 這個額外的分析就會執(zhí)行. 當前, 這種對一個模式的分析僅僅適用于非錨定模式的匹配(即沒有單獨的固定開始字符).
U (PCRE_UNGREEDY)
這個修飾符逆轉(zhuǎn)了量詞的"貪婪"模式. 使量詞默認為非貪婪的, 通過量詞后緊跟? 的方式可以使其成為貪婪的. 這和perl是不兼容的. 它同樣可以使用 模式內(nèi)修飾符設(shè)置 (?U)進行設(shè)置, 或者在量詞后以問號標記其非貪婪(比如.*?).在非貪婪模式, 通常不能匹配超過 pcre.backtrack_limit 的字符.
X (PCRE_EXTRA)
這個修飾符打開了PCRE與perl不兼容的附件功能. 模式中的任意反斜線后就ingen一個 沒有特殊含義的字符都會導致一個錯誤, 以此保留這些字符以保證向后兼容性. 默認 情況下, 在perl中, 反斜線緊跟一個沒有特殊含義的字符被認為是該字符的原文. 當前沒有其他特性由這個修飾符控制.
J (PCRE_INFO_JCHANGED)
內(nèi)部選項設(shè)置(?J)修改本地的PCRE_DUPNAMES選項. 允許子組重名. (譯注:只能通過內(nèi)部選項設(shè)置, 外部的/J設(shè)置會產(chǎn)生錯誤.)
u (PCRE8)
此修正符打開一個與perl不兼容的附加功能. 模式字符串被認為是utf-8的. 這個修飾符 從unix版php 4.1.0或更高, win32版php 4.2.3開始可用. php 4.3.5開始檢查模式的utf-8合法性. This modifier turns on additional functionality of PCRE that is incompatible with Perl. Pattern strings are treated as UTF-8. This modifier is available from PHP 4.1.0 or greater on Unix and from PHP 4.2.3 on win32. UTF-8 validity of the pattern is checked since PHP 4.3.5.
PCRE 函數(shù)庫中的函數(shù)使用的模式語法非常類似perl. 表達式必須用分隔符閉合, 比如一個正斜杠(/). 分隔符可以使任意非字母數(shù)字, 除反斜杠(\)和空字節(jié)之外的非空白ascii字符. 如果分隔符 在表達式中使用, 需要使用反斜線進行轉(zhuǎn)義. 自php 4.0.4開始, 可以使用perl樣式的(), {}, []以及<>作為分隔符. 更詳細的解釋參見模式語法.
結(jié)束分隔符后面可以緊跟模式修飾符來影響匹配效果. 參見模式修飾符.
PCRE的模式修正符
i (PCRE_CASELESS)
如果設(shè)定此修正符,模式中的字符將同時匹配大小寫字母。
s(PCRE_DOTALL)
如果設(shè)定了此修正符,模式中的圓點元字符(.)匹配所有的字符,包括換行符。沒有此設(shè)定的話,則不包括換行符。這和 Perl 的 /s 修正符是等效的。排除字符類例如 [^a] 總是匹配換行符的,無論是否設(shè)定了此修正符。
m(PCRE_MULTILINE)
默認情況下,PCRE 將目標字符串作為單一的一“行”字符所組成的(甚至其中包含有換行符也是如此)?!靶衅鹗肌痹址╚)僅僅匹配字符串的起始,“行結(jié)束”元字符($)僅僅匹配字符串的結(jié)束,或者最后一個字符是換行符時其前面(除非設(shè)定了 D 修正符)。這和 Perl 是一樣的。當設(shè)定了此修正符,“行起始”和“行結(jié)束”除了匹配整個字符串開頭和結(jié)束外,還分別匹配其中的換行符的之后和之前。這和 Perl 的 /m 修正符是等效的。如果目標字符串中沒有“\n”字符或者模式中沒有 ^ 或 $,則設(shè)定此修正符沒有任何效果。
x (PCRE_EXTENDED)
如果設(shè)置了這個修飾符, 模式中的沒有經(jīng)過轉(zhuǎn)義的或不在字符類中的空白數(shù)據(jù)字符總會被忽略, 并且位于一個未轉(zhuǎn)義的字符類外部的#字符和下一個換行符之間的字符也被忽略. 這個修飾符 等同于perl中的/x修飾符, 使被編譯模式中可以包含注釋. 注意: 這僅用于數(shù)據(jù)字符. 空白字符 還是不能在模式的特殊字符序列中出現(xiàn), 比如序列(?(引入了一個條件子組(譯注: 這種語法定義的 特殊字符序列中如果出現(xiàn)空白字符會導致編譯錯誤. 比如( ?(就會導致錯誤.).
e (PREG_REPLACE_EVAL)
如果這個修飾符設(shè)置了, preg_replace()在進行了對替換字符串的 后向引用替換之后, 將替換后的字符串作為php代碼評估之行(eval函數(shù)方式), 并使用之行結(jié)果 作為實際參與替換的字符串. 單引號, 雙引號, 反斜線(\)和NULL字符在 后向引用替換時會被用反斜線轉(zhuǎn)義.
僅preg_replace()使用此修飾符, 其他PCRE函數(shù)忽略此修飾符.
A (PCRE_ANCHORED)
如果設(shè)置了這個修飾符, 模式被強制為"錨定"模式, 也就是說約束匹配使其僅從 目標字符串的開始位置搜索. 這個效果同樣可以使用適當?shù)哪J綐?gòu)造出來, 并且 這也是perl種實現(xiàn)這種模式的唯一途徑.
D (PCRE_DOLLAR_ENDONLY)
如果這個修飾符被設(shè)置, 模式中的元字符美元符號僅僅匹配目標字符串的末尾. 如果這個修飾符 沒有設(shè)置, 當字符串以一個換行符結(jié)尾時, 美元符號還會匹配該換行符(但不會匹配之前的任何換行符). 如果設(shè)置了修飾符m, 這個修飾符被忽略. 在perl中沒有與此修飾符等同的修飾符.
S
當一個模式需要多次使用的時候, 為了得到匹配速度的提升, 值得花費一些時間 對其進行一些額外的分析. 如果設(shè)置了這個修飾符, 這個額外的分析就會執(zhí)行. 當前, 這種對一個模式的分析僅僅適用于非錨定模式的匹配(即沒有單獨的固定開始字符).
U (PCRE_UNGREEDY)
這個修飾符逆轉(zhuǎn)了量詞的"貪婪"模式. 使量詞默認為非貪婪的, 通過量詞后緊跟? 的方式可以使其成為貪婪的. 這和perl是不兼容的. 它同樣可以使用 模式內(nèi)修飾符設(shè)置 (?U)進行設(shè)置, 或者在量詞后以問號標記其非貪婪(比如.*?).在非貪婪模式, 通常不能匹配超過 pcre.backtrack_limit 的字符.
X (PCRE_EXTRA)
這個修飾符打開了PCRE與perl不兼容的附件功能. 模式中的任意反斜線后就ingen一個 沒有特殊含義的字符都會導致一個錯誤, 以此保留這些字符以保證向后兼容性. 默認 情況下, 在perl中, 反斜線緊跟一個沒有特殊含義的字符被認為是該字符的原文. 當前沒有其他特性由這個修飾符控制.
J (PCRE_INFO_JCHANGED)
內(nèi)部選項設(shè)置(?J)修改本地的PCRE_DUPNAMES選項. 允許子組重名. (譯注:只能通過內(nèi)部選項設(shè)置, 外部的/J設(shè)置會產(chǎn)生錯誤.)
u (PCRE8)
此修正符打開一個與perl不兼容的附加功能. 模式字符串被認為是utf-8的. 這個修飾符 從unix版php 4.1.0或更高, win32版php 4.2.3開始可用. php 4.3.5開始檢查模式的utf-8合法性. This modifier turns on additional functionality of PCRE that is incompatible with Perl. Pattern strings are treated as UTF-8. This modifier is available from PHP 4.1.0 or greater on Unix and from PHP 4.2.3 on win32. UTF-8 validity of the pattern is checked since PHP 4.3.5.
相關(guān)文章
淺談PHP的排列組合(如輸入a,b,c 輸出他們的全部組合)
下面小編就為大家?guī)硪黄獪\談PHP的排列組合(如輸入a,b,c 輸出他們的全部組合)。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-03-03php中關(guān)于token驗證的相關(guān)問題詳解
這篇文章主要介紹了php中關(guān)于token驗證的相關(guān)問題詳解的相關(guān)資料,需要的朋友可以參考下2023-05-05windows中PHP5.2.14以及apache2.2.16安裝配置方法
windows中PHP5.2.14以及apache2.2.16安裝配置,需要配置php運行環(huán)境的朋友可以參考下。2010-09-09