javascript 正則表達式分組、斷言詳解

更新時間：2017年04月20日 14:41:28 作者：楊元

這篇文章主要介紹了 javascript 正則表達式分組、斷言詳解的相關(guān)資料,需要的朋友可以參考下

javascript 正則表達式分組、斷言詳解

提示：閱讀本文需要有一定的正則表達式基礎(chǔ)。

正則表達式中的斷言，作為高級應(yīng)用出現(xiàn)，倒不是因為它有多難，而是概念比較抽象，不容易理解而已，今天就讓小菜通俗的講解一下。

如果不用斷言，以往用過的那些表達式，僅僅能獲取到有規(guī)律的字符串，而不能獲取無規(guī)律的字符串。

舉個例子，比如html源碼中有<title>xxx</title>標簽，用以前的知識，我們只能確定源碼中的<title>和</title>是固定不變的。因此，如果想獲取頁面標題(xxx)，充其量只能寫一個類似于這樣的表達式：<title>.*</title>，而這樣寫匹配出來的是完整的<title>xxx</title>標簽，并不是單純的頁面標題xxx。

想解決以上問題，就要用到斷言知識。

在講斷言之前，讀者應(yīng)該先了解分組，這有助于理解斷言。

分組在正則中用()表示，根據(jù)小菜理解，分組的作用有兩個：

n 將某些規(guī)律看成是一組，然后進行組級別的重復(fù)，可以得到意想不到的效果。

n 分組之后，可以通過后向引用簡化表達式。

先來看第一個作用，對于IP地址的匹配，簡單的可以寫為如下形式：

\d{1,3}.\d{1,3}.\d{1,3}.\d{1,3}

但仔細觀察，我們可以發(fā)現(xiàn)一定的規(guī)律，可以把.\d{1,3}看成一個整體，也就是把他們看成一組，再把這個組重復(fù)3次即可。表達式如下：

\d{1,3}(.\d{1,3}){3}

這樣一看，就比較簡潔了。

再來看第二個作用，就拿匹配<title>xxx</title>標簽來說，簡單的正則可以這樣寫：

可以看出，上邊表達式中有兩個title，完全一樣，其實可以通過分組簡寫。表達式如下：

<(title)>.*</\1>

這個例子實際上就是反向引用的實際應(yīng)用。對于分組而言，整個表達式永遠算作第0組，在本例中，第0組是<(title)>.*</\1>，然后從左到右，依次為分組編號，因此，(title)是第1組。

用\1這種語法，可以引用某組的文本內(nèi)容，\1當然就是引用第1組的文本內(nèi)容了，這樣一來，就可以簡化正則表達式，只寫一次title，把它放在組里，然后在后邊引用即可。

以此為啟發(fā)，我們可不可以簡化剛剛的IP地址正則表達式呢？原來的表達式為\d{1,3}(.\d{1,3}){3}，里邊的\d{1,3}重復(fù)了兩次，如果利用后向引用簡化，表達式如下：

(\d{1,3})(.\1){3}

簡單的解釋下，把\d{1,3}放在一組里，表示為(\d{1,3})，它是第1組，(.\1)是第2組，在第2組里通過\1語法，后向引用了第1組的文本內(nèi)容。

經(jīng)過實際測試，會發(fā)現(xiàn)這樣寫是錯誤的，為什么呢？

小菜一直在強調(diào)，后向引用，引用的僅僅是文本內(nèi)容，而不是正則表達式！

也就是說，組中的內(nèi)容一旦匹配成功，后向引用，引用的就是匹配成功后的內(nèi)容，引用的是結(jié)果，而不是表達式。

因此，(\d{1,3})(.\1){3}這個表達式實際上匹配的是四個數(shù)都相同的IP地址，比如：123.123.123.123。

至此，讀者已經(jīng)掌握了傳說中的后向引用，就這么簡單。

接下來說說什么是斷言。

所謂斷言，就是指明某個字符串前邊或者后邊，將會出現(xiàn)滿足某種規(guī)律的字符串。

就拿文章開篇的例子來說，我們想要的是xxx，它沒有規(guī)律，但是它前邊肯定會有<title>，后邊肯定會有</title>，這就足夠了。

想指定xxx前肯定會出現(xiàn)<title>，就用正后發(fā)斷言，表達式：(?<=<title>).*

向指定xxx后邊肯定會出現(xiàn)</title>，就用正先行斷言，表達式：.*(?=</title>)

兩個加在一起，就是(?<=<title>).*(?=</title>)

這樣就能匹配到xxx。

相信讀者看到這，已經(jīng)蒙了，不用急，待小菜慢慢講來。

其實掌握了規(guī)律，就很簡單了，無論是先行還是后發(fā)，都是相對于xxx而言的，也就是相對于目標字符串而言。

假如目標字符串后邊有條件，可以理解為目標字符串在前，就用先行斷言，放在目標字符串之后。

假如目標字符串前邊有條件，可以理解為目標字符串在后，就用后發(fā)斷言，放在目標字符串之前。

假如指定滿足某個條件，就是正。

假如指定不滿足某個條件，就是負。

斷言只是條件，幫你找到真正需要的字符串，本身并不會匹配！

(?=X )	零寬度正先行斷言。僅當子表達式 X 在此位置的右側(cè)匹配時才繼續(xù)匹配。例如，/w+(?=/d) 與后跟數(shù)字的單詞匹配，而不與該數(shù)字匹配。此構(gòu)造不會回溯。
(?!X)	零寬度負先行斷言。僅當子表達式 X 不在此位置的右側(cè)匹配時才繼續(xù)匹配。例如，例如，/w+(?!/d) 與后不跟數(shù)字的單詞匹配，而不與該數(shù)字匹配。
(?<=X)	零寬度正后發(fā)斷言。僅當子表達式 X 在此位置的左側(cè)匹配時才繼續(xù)匹配。例如，(?<=19)99 與跟在 19 后面的 99 的實例匹配。此構(gòu)造不會回溯。
(?<!X)	零寬度負后發(fā)斷言。僅當子表達式 X 不在此位置的左側(cè)匹配時才繼續(xù)匹配。例如，(?<!19)99 與不跟在 19 后面的 99 的實例匹配