PHP中的遞歸正則表達(dá)式用法分享
更新時(shí)間:2012年09月11日 18:03:59 作者:
其實(shí)很多語言中的正則表達(dá)式都是支持遞歸的, 本文主要介紹PHP的正則遞歸. 雖然, 工作中最常用的正則表達(dá)式都很普通, 只用最基本的語法就能解決85%以上的問題, 而且合理有效地使用普通正則來解決復(fù)雜問題也是一門技巧與學(xué)問,但是更高級(jí)一點(diǎn)的語法的確有它存在的價(jià)值,看下面具體介紹
什么時(shí)候會(huì)用到遞歸正則表達(dá)式呢? 當(dāng)然是待匹配的字串中遞歸地出現(xiàn)某種模式時(shí)(貌似廢話). 最經(jīng)典的例子, 就是遞歸正則處理嵌套括號(hào)的問題了. 例子如下.
假設(shè)你的文本中包含了正確配對(duì)的嵌套括號(hào). 括號(hào)的深度可以是無限層. 你想捕獲這樣的括號(hào)組.
<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/\(([^()]+|(?R))*\)/",$string,$matches)) {
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
結(jié)果是:
Array
(
[0] => (a(b(c)d)e)
[1] => e
)
可見, 我們所需要的文本, 已經(jīng)捕獲到$matches[0]中了.
原理
現(xiàn)在思考原理.
上面的正則表達(dá)式中的關(guān)鍵點(diǎn)是(?R). (?R)的作用就是遞歸地替換它所在的整條正則表達(dá)式. 在每次迭代時(shí), PHP 語法分析器都會(huì)將(?R)替換為”\(([^()]+|(?R))*\)“.
因此, 具體到上述的例子, 其正則表達(dá)式等價(jià)于:
"/\(([^()]+|\(([^()]+|\(([^()]+)*\))*\))*\)/"
但是上面的代碼只適合深度為3層的括號(hào). 對(duì)于未知深度的括號(hào)嵌套, 就只好使用這種正則了:
"/\(([^()]+|(?R))*\)/"
它不但能夠匹配無限深度, 還簡(jiǎn)化了正則表達(dá)式的語法. 功能強(qiáng)大, 語法簡(jiǎn)潔.
現(xiàn)在來細(xì)看一下"/\(([^()]+|(?R))*\)/"是怎樣匹配"(a(b(c)d)e)"的:
"(c)"這部分被正則式 "\(([^()]+)*\)" 匹配. 請(qǐng)注意, (c) 其實(shí)就相當(dāng)于整個(gè)遞歸的一個(gè)縮影, 麻雀雖小五臟俱全, 因此它用到了整個(gè)正則表達(dá)式.
換言之, 下一步中的(c), 可以使用(?R) 來匹配.
(b(c)d)的匹配過程為:
"\("匹配"(";
"[^()]+"匹配"b";
(?R)匹配"(c)";
"[^()]+"匹配"d";
"\)"匹配")".
根據(jù)上面的匹配原理, 不難理解為什么數(shù)組的第2個(gè)元素$matches[1]與'e'等價(jià). 子串'e'是在最后一次匹配迭代中被捕獲. 匹配過程中, 只有最后一次的捕獲結(jié)果才會(huì)保存到數(shù)組中.
關(guān)于這個(gè)特性, 可以自行嘗試一下, 看看使用正則式([a-z]+[0-9]+)+來匹配字串a(chǎn)bc123xyz890, 其捕獲結(jié)果$1是什么. 注意, 其結(jié)果與 Left Longest 原理并不沖突.
如果我們只需要捕獲 $matches[0], 可以這樣做:
<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/((?:[^()]+|(?R))*)/",$string,$matches))
{
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
產(chǎn)生的結(jié)果相同:
Array
(
[0] => (a(b(c)d)e)
)
所做的改動(dòng)是捕獲括號(hào)()改為非捕獲捕獲括號(hào)(?:)了.
還可以進(jìn)一步完善為:
<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/((?>[^()]+|(?R))*)/",$string,$matches))
{
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
這里我們用到了所謂的一次性模式(rex注: 余晟先生譯的《精通正則表達(dá)式v3.0》中, 謂之”固化分組”. 可參考該書.) PHP手冊(cè)也推薦只要條件允許, 就盡可能使用這種模式, 以便提升正則表達(dá)式的速度.
假設(shè)你的文本中包含了正確配對(duì)的嵌套括號(hào). 括號(hào)的深度可以是無限層. 你想捕獲這樣的括號(hào)組.
復(fù)制代碼 代碼如下:
<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/\(([^()]+|(?R))*\)/",$string,$matches)) {
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
結(jié)果是:
復(fù)制代碼 代碼如下:
Array
(
[0] => (a(b(c)d)e)
[1] => e
)
可見, 我們所需要的文本, 已經(jīng)捕獲到$matches[0]中了.
原理
現(xiàn)在思考原理.
上面的正則表達(dá)式中的關(guān)鍵點(diǎn)是(?R). (?R)的作用就是遞歸地替換它所在的整條正則表達(dá)式. 在每次迭代時(shí), PHP 語法分析器都會(huì)將(?R)替換為”\(([^()]+|(?R))*\)“.
因此, 具體到上述的例子, 其正則表達(dá)式等價(jià)于:
復(fù)制代碼 代碼如下:
"/\(([^()]+|\(([^()]+|\(([^()]+)*\))*\))*\)/"
但是上面的代碼只適合深度為3層的括號(hào). 對(duì)于未知深度的括號(hào)嵌套, 就只好使用這種正則了:
復(fù)制代碼 代碼如下:
"/\(([^()]+|(?R))*\)/"
它不但能夠匹配無限深度, 還簡(jiǎn)化了正則表達(dá)式的語法. 功能強(qiáng)大, 語法簡(jiǎn)潔.
現(xiàn)在來細(xì)看一下"/\(([^()]+|(?R))*\)/"是怎樣匹配"(a(b(c)d)e)"的:
"(c)"這部分被正則式 "\(([^()]+)*\)" 匹配. 請(qǐng)注意, (c) 其實(shí)就相當(dāng)于整個(gè)遞歸的一個(gè)縮影, 麻雀雖小五臟俱全, 因此它用到了整個(gè)正則表達(dá)式.
換言之, 下一步中的(c), 可以使用(?R) 來匹配.
(b(c)d)的匹配過程為:
"\("匹配"(";
"[^()]+"匹配"b";
(?R)匹配"(c)";
"[^()]+"匹配"d";
"\)"匹配")".
根據(jù)上面的匹配原理, 不難理解為什么數(shù)組的第2個(gè)元素$matches[1]與'e'等價(jià). 子串'e'是在最后一次匹配迭代中被捕獲. 匹配過程中, 只有最后一次的捕獲結(jié)果才會(huì)保存到數(shù)組中.
關(guān)于這個(gè)特性, 可以自行嘗試一下, 看看使用正則式([a-z]+[0-9]+)+來匹配字串a(chǎn)bc123xyz890, 其捕獲結(jié)果$1是什么. 注意, 其結(jié)果與 Left Longest 原理并不沖突.
如果我們只需要捕獲 $matches[0], 可以這樣做:
復(fù)制代碼 代碼如下:
<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/((?:[^()]+|(?R))*)/",$string,$matches))
{
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
產(chǎn)生的結(jié)果相同:
Array
(
[0] => (a(b(c)d)e)
)
所做的改動(dòng)是捕獲括號(hào)()改為非捕獲捕獲括號(hào)(?:)了.
還可以進(jìn)一步完善為:
復(fù)制代碼 代碼如下:
<?php
$string = "some text (a(b(c)d)e) more text";
if(preg_match("/((?>[^()]+|(?R))*)/",$string,$matches))
{
echo "<pre>"; print_r($matches); echo "</pre>";
}
?>
這里我們用到了所謂的一次性模式(rex注: 余晟先生譯的《精通正則表達(dá)式v3.0》中, 謂之”固化分組”. 可參考該書.) PHP手冊(cè)也推薦只要條件允許, 就盡可能使用這種模式, 以便提升正則表達(dá)式的速度.
您可能感興趣的文章:
相關(guān)文章
提高正則表達(dá)式性能的幾點(diǎn)實(shí)用建議匯總
正則表達(dá)式是計(jì)算科學(xué)的一個(gè)概念,很多語言都實(shí)現(xiàn)了他,正則表達(dá)式使用一些特定的元字符來檢索,匹配以及替換符合規(guī)則的字符串,下面這篇文章主要給大家介紹了提高正則表達(dá)式性能的幾點(diǎn)實(shí)用建議,需要的朋友可以參考下2022-08-08精通 JavaScript中的正則表達(dá)式手機(jī)整理 推薦
精通 JS正則表達(dá)式,想學(xué)習(xí)js正則表達(dá)式的朋友非常值得看,整理的比較不錯(cuò)。2009-10-10使用正則表達(dá)式生成隨機(jī)數(shù)據(jù)的方法
這篇文章主要介紹了使用正則表達(dá)式生成隨機(jī)數(shù)據(jù)的方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02Linux下如何使用grep命令查找?guī)в衪ab(退格)的字符
本文給大家介紹linux下如何使用grep命令查找?guī)в衪ab(退格)的字符,涉及到linux grep 查找?guī)в衪ab的字符方面的知識(shí),對(duì)linux grep tab感興趣的朋友可以參考下本篇文章2015-10-10Javascript Validation for email(正則表達(dá)式) 英文翻譯
javascript中通過正則表達(dá)式驗(yàn)證email地址是否符合規(guī)則,需要的朋友可以參考下。2011-10-10Python正則表達(dá)式的7個(gè)使用典范(推薦)
這篇文章主要介紹了Python正則表達(dá)式的7個(gè)使用典范,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2018-11-11如何使用JavaScript和正則表達(dá)式進(jìn)行數(shù)據(jù)驗(yàn)證
利用客戶端JavaScript的優(yōu)勢(shì),JavaScript中的正則表達(dá)式可以簡(jiǎn)化數(shù)據(jù)驗(yàn)證的工作,下面與大家分享下如何使用JavaScript和正則表達(dá)式進(jìn)行數(shù)據(jù)驗(yàn)證,感興趣的朋友可以參考下哈2013-05-05自定義ubb代碼,preg_replace()函數(shù)的一些代碼
自定義ubb代碼,preg_replace()函數(shù)的一些代碼...2007-03-03