快捷導(dǎo)航

小議正則表達(dá)式效率貪婪、非貪婪與回溯

更新時(shí)間：2011年04月12日 21:40:43 作者：

前幾天看了鳥哥的BLOG上寫的關(guān)于正則表達(dá)式的回溯與遞歸的限制時(shí)，對貪婪、非貪婪產(chǎn)生的回溯有疑問，遂近段時(shí)間，仔細(xì)的學(xué)習(xí)研究了一下，現(xiàn)在把經(jīng)驗(yàn)心得與大家分享一下。

先掃盲一下什么是正則表達(dá)式的貪婪，什么是非貪婪？或者說什么是匹配優(yōu)先量詞，什么是忽略優(yōu)先量詞？
好吧，我也不知道概念是什么，來舉個(gè)例子吧。
某同學(xué)想過濾之間的內(nèi)容，那是這么寫正則以及程序的。

復(fù)制代碼代碼如下:

$str = preg_replace('%<script>.+?</script>%i','',$str);//非貪婪

看起來，好像沒什么問題，其實(shí)則不然。若

復(fù)制代碼代碼如下:

 
$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 

那么經(jīng)過上面的程序處理，其結(jié)果為

復(fù)制代碼代碼如下:

 
$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
$str = preg_replace('%<script>.+?</script>%i','',$str);//非貪婪 
print_r($str); 
//$str 輸出為 <script>alert(document.cookie)</script> 

仍然達(dá)不到他想要的效果。上面的就是非貪婪，也有的叫惰性。其標(biāo)志非貪婪的標(biāo)識為量數(shù)元字符后面加? ，比如 +?、*?、??(比較特殊，以后的BLOG中，我會寫到)等。即標(biāo)識非貪婪，如果不寫?就是貪婪。比如

復(fù)制代碼代碼如下:

 
$str = '<script<script>alert(document.cookie)</script>>alert(document.cookie)</script>'; 
$str = preg_replace('%<script>.+</script>%i','',$str);//非貪婪 
print_r($str); 
//$str 輸出為 <script 只有這些了，好像還是不太合適，哈，您知道如何重寫那個(gè)正則嗎？ 

以上為貪婪，非貪婪的區(qū)別介紹。下面，聊下貪婪、非貪婪引起的回溯問題。先看個(gè)小例子。
正則表達(dá)式為\w*(\d+)，字符串為cfc456n，那么，這個(gè)正則匹配的$1是多少？？

如果您回答是 456,那么，恭喜你，回答錯(cuò)了，其結(jié)果不是456，而是6，您知道為什么嗎？

CFC4N來解釋一下，當(dāng)正則引擎用正則\w*(\d+)去匹配字符串cfc456n時(shí)，會先用\w*去匹配字符串cfc456n，首先，\w*會匹配字符串cfc456n的所有字符，然后再交給\d+去匹配剩下的字符串，而剩下的沒了，這時(shí)，\w*規(guī)則會不情愿的吐出一個(gè)字符，給\d+去匹配，同時(shí)，在吐出字符之前，記錄一個(gè)點(diǎn)，這個(gè)點(diǎn)，就是用于回溯的點(diǎn)，然后\d+去匹配n，發(fā)現(xiàn)并不能匹配成功，會再次要求\w*再吐出一個(gè)字符，\w*會先再次記錄一個(gè)回溯的點(diǎn)，再吐出一個(gè)字符。這時(shí)，\w* 匹配的結(jié)果只有cfc45了，已經(jīng)吐出6n了，\d+再去匹配6，發(fā)現(xiàn)匹配成功，則會通知引擎，匹配成功了，就直接顯示出來了。所以，(\d+)的結(jié)果是6，而不是456。

當(dāng)上面的正則表達(dá)式改為 \w*?(\d+)（注意，此處為非貪婪），字符串仍然為cfc456n，那么，這時(shí)候，正則匹配的$1是多少？？
甲同學(xué)回答：結(jié)果是 456。
嗯，是的，正確，是456，CFC4N弱弱的問下，為什么是456 呢？
我在來解釋一下為什么是456
正則表達(dá)式有條規(guī)則，是量詞優(yōu)先匹配，所以\w*?會先去匹配字符串cfc456，由于\w*?是非貪婪，正則引擎會用表達(dá)式\w+?每次僅匹配一個(gè)字符串,然后再將控制權(quán)交給后面的\d+去匹配下一個(gè)字符，同時(shí)，記錄一個(gè)點(diǎn)，用于在匹配不成功的時(shí)候，返回這里，再次匹配，也就是回溯點(diǎn)。由于\w后面是量詞是*，*表示0到無數(shù)次，所以，首先是0次，也就是\w*?匹配個(gè)空，記錄回溯點(diǎn)，將控制權(quán)交給\d+,\d+去匹配cfc456n的第一個(gè)字符c,然后，匹配失敗，于是乎，接著講控制權(quán)交給\w*?去匹配cfc456n的c，\w*?匹配c成功，由于是非貪婪，所以，他每次只匹配一個(gè)字符，記錄回溯點(diǎn)，然后再將控制權(quán)交給\d+匹配f,接著，\d+匹配f再失敗，再把控制權(quán)給\w*?，\w*?再匹配c,記錄回溯點(diǎn)（這時(shí)\w*?匹配結(jié)果是cfc了），再把控制權(quán)給\d+，\d+去匹配4，匹配成功，然后，由于量詞是+，就是1到無數(shù)次，所以，接著往后匹配，再匹配5，成功，再接著，再匹配6，成功，再接著，繼續(xù)匹配操作，下一個(gè)字符是n，匹配失敗，這時(shí)，\d+會吧控制權(quán)交出去。由于\d+后面已經(jīng)沒有正則表達(dá)式了，所以，整個(gè)正則表達(dá)式宣告匹配完成，其結(jié)果就是 cfc456, 其中第一組結(jié)果是456。親愛的同學(xué)，您明白剛剛的題目的結(jié)果，為什么是456了嗎？

好了，您是否從上面的例子了解了貪婪，非貪婪的匹配原理了？那您是否明白您在什么時(shí)候需要使用貪婪，非貪婪去處理您的字符串了？
鳥哥的文章里講到針對
表達(dá)式、程序?yàn)?

復(fù)制代碼代碼如下:

 
$reg = "/<script>.*?<\/script>/is"; 
$str = "<script>********</script>"; //長度大于100014 
$ret = preg_repalce($reg, "", $str); //返回NULL 

其原因就是回溯太多了，直到造成耗盡?？臻g爆棧。

再來看個(gè)例子。
字符串

復(fù)制代碼代碼如下:

$str = '<script>123456</script>';

正則表達(dá)式為

復(fù)制代碼代碼如下:

 
$strRegex1 = '%<script>.+<\/script>%'; 
$strRegex2 = '%<script>.+?<\/script>%'; 
$strRegex3 = '%<script>(?:(?!<\/script>).)+<\/script>%'; 

這三個(gè)正則，分別會造成幾次回溯呢？？

答案見下篇 PHP正則表達(dá)式的效率：回溯與固化分組

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

小議正則表達(dá)式效率貪婪、非貪婪與回溯

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

小議正則表達(dá)式效率 貪婪、非貪婪與回溯

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

小議正則表達(dá)式效率貪婪、非貪婪與回溯