欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用正則表達式找出不包含特定字符串的條目

 更新時間:2014年09月10日 14:47:37   投稿:mdxy-dxy  
今天在寫一個功能的時候,需要替換不包含指定字符串的正則,看到了一篇好文章特整理分享下,方便需要的朋友

做日志分析工作的經(jīng)常需要跟成千上萬的日志條目打交道,為了在龐大的數(shù)據(jù)量中找到特定模式的數(shù)據(jù),常常需要編寫很多復(fù)雜的正則表達式。例如枚舉出日志文件中不包含某個特定字符串的條目,找出不以某個特定字符串打頭的條目,等等。

使用否定式前瞻

正則表達式中有前瞻(Lookahead)和后顧(Lookbehind)的概念,這兩個術(shù)語非常形象的描述了正則引擎的匹配行為。需要注意一點,正則表達式中的前和后和我們一般理解的前后有點不同。一段文本,我們一般習(xí)慣把文本開頭的方向稱作“前面”,文本末尾方向稱為“后面”。但是對于正則表達式引擎來說,因為它是從文本頭部向尾部開始解析的(可以通過正則選項控制解析方向),因此對于文本尾部方向,稱為“前”,因為這個時候,正則引擎還沒走到那塊,而對文本頭部方向,則稱為“后”,因為正則引擎已經(jīng)走過了那一塊地方。如下圖所示:

正向前瞻逆向前瞻

所謂的前瞻就是在正則表達式匹配到某個字符的時候,往“尚未解析過的文本”預(yù)先看一下,看是不是符合/不符合匹配模式,而后顧,就是在正則引擎已經(jīng)匹配過的文本看看是不是符合/不符合匹配模式。符合和不符合特定匹配模式我們又稱為肯定式匹配和否定式匹配。

現(xiàn)代高級正則表達式引擎一般都支持都支持前瞻,對于后顧支持并不是很廣泛,因此我們這里采用否定式前瞻來實現(xiàn)我們的需求。

實現(xiàn)

測試數(shù)據(jù):

復(fù)制代碼 代碼如下:

2009-07-07 04:38:44 127.0.0.1 GET /robots.txt
2009-07-07 04:38:44 127.0.0.1 GET /posts/robotfile.txt
2009-07-08 04:38:44 127.0.0.1 GET /

例如上面這幾條簡單的日志條目,我們想實現(xiàn)兩個目標(biāo):

1. 把8號的數(shù)據(jù)過濾掉
2. 把那些不包含robots.txt字符串的條目給找出來(只要Url中包含robots.txt的都給過濾掉)。

前瞻的語法是:

(?!匹配模式)我們先來實現(xiàn)第一個目標(biāo)——匹配不以特定字符串開頭的條目。

這里我們因為要排除一段連續(xù)的字符串,因此匹配模式非常簡單,就是2009-07-08。實現(xiàn)如下:

復(fù)制代碼 代碼如下:

^(?!2009-07-08).*?$

用Expresso我們可以看到結(jié)果確實過濾掉8號的數(shù)據(jù)。

接下來,我們來實現(xiàn)第二個目標(biāo)——排除包含特定字符串的條目。

按照我們上面寫法,我照葫蘆畫瓢了一下:

復(fù)制代碼 代碼如下:

^.*?(?!robots\.txt).*?$

這段正則用大白話描述就是:開頭任意字符,然后后面不要跟著robots.txt連續(xù)字符串,然后再跟著任意個字符,字符串結(jié)尾。
運行測試,結(jié)果發(fā)現(xiàn):

image

沒有達到我們想要的效果。這是為什么呢?我們給上面的正則表達式加上兩個捕獲分組調(diào)試一下:

復(fù)制代碼 代碼如下:

^(.*?)(?!robots\.txt)(.*?)$

測試結(jié)果:

image

我們看到,第一個分組啥都沒有匹配到,而第二個分組卻匹配了整個字符串。再回過頭來好好分析一下剛才那個正則表達式。實際上,當(dāng)正則引擎解析到A區(qū)域的時候,就已經(jīng)開始執(zhí)行B區(qū)域的前瞻工作。這個時候發(fā)現(xiàn)當(dāng)A區(qū)域為Null的時候匹配成功——.*本來就允許匹配空字符,前瞻條件又滿足,A區(qū)域后面緊跟著的是“2009”字符串,而并不是robots。因此整個匹配過程成功匹配到所有條目。

image

分析出原因之后我們對上述的正則進行修正,將.*?移入前瞻表達式,如下:

復(fù)制代碼 代碼如下:

^(?!.*?robots).*$

測試結(jié)果:

image

完成

php中用正則實現(xiàn)不包括某個字符串的實現(xiàn)方法

preg_match("/^((?!abc).)*$/is", $str);

完整代碼示例

復(fù)制代碼 代碼如下:

$str = "dfadfadf765577abc55fd";
$pattern_url = "/^((?!abc).)*$/is";
if (preg_match($pattern_url, $str))
{
echo "不含有abc!";
}
else
{
echo "含有abc!";
}

結(jié)果為:false,含有abc!

同時匹配,包含字符串 "abc",而且不包含字符串 "xyz"的正則表達式:

preg_match("/(abc)[^((?!xyz).)*$]/is", $str);

該方法有效,本人使用方法如下:

(?:(?!<\/div>).|\n)*? //匹配不含</div>的一個字符串

但最終使用中結(jié)果是發(fā)現(xiàn),該方法效率極其低下,在處理非常短文字(要匹配該正則式的相同部分的有十幾個字,或者最多幾十個)時間可以考慮使用,但當(dāng)用于大篇幅文章解析或多處需要改種匹配時間應(yīng)不使用,考慮用其他方法替代(如:先解析出要匹配該段正則式的文字,然后驗證其中是否存在某段文字),正則表達式對于匹配不含特定字符串的文字段時并不是非常有效的方法.

  • javascript正則表達式標(biāo)記中/g /i /m的用法,以及實例

    javascript正則表達式標(biāo)記中/g /i /m的用法,以及實例

    正則的思想都是一樣的,但是具體的寫法會有所不同,在這里提到的/g,/i,/m在其他的地方也許就不能用了,需要的朋友可以參考下
    2020-02-02
  • php正則表達式匹配img中任意屬性的方法

    php正則表達式匹配img中任意屬性的方法

    經(jīng)常使用到一些提取圖片中scr、alt、title、等的屬性,這里總結(jié)給大家一些常用的,感覺還不錯,比較通用
    2014-01-01
  • javascript用正則表達式把1234567890替換為abcdefghij

    javascript用正則表達式把1234567890替換為abcdefghij

    javascript用正則表達式把1234567890替換為abcdefghij...
    2007-06-06
  • 談?wù)務(wù)齽t表達式中的句號.

    談?wù)務(wù)齽t表達式中的句號.

    好久沒更新內(nèi)容了,今天分享一個小的知識點,一個正則表達式方面的很容易被人忽視的坑,需要的朋友可以參考下
    2018-06-06
  • 實用正則表達式匹配和替換大全

    實用正則表達式匹配和替換大全

    正則表達式非常有用,查找、匹配、處理字符串、替換和轉(zhuǎn)換字符串,輸入輸出等。而且各種語言都支持,具有一定的參考價值,感興趣的小伙伴們可以參考一下。
    2016-11-11
  • 向大家推薦一個收集整理正則表達式的網(wǎng)站

    向大家推薦一個收集整理正則表達式的網(wǎng)站

    向大家推薦一個收集整理正則表達式的網(wǎng)站...
    2007-04-04
  • 利用js給DropdownList賦值實例

    利用js給DropdownList賦值實例

    本文主要分享了利用js給DropdownList賦值的實例,代碼清晰,圖文并茂,有利于理解與掌握,需要的朋友可以看下
    2016-12-12
  • C# 正則表達式 使用介紹

    C# 正則表達式 使用介紹

    最近寫爬蟲時需要用到正則表達式,有段時間沒有使用正則表達式現(xiàn)在漸漸感覺有些淡忘,現(xiàn)在使用還需要去查詢一些資料
    2006-07-07
  • 正則表達式替換字符串并保留其中部分任意內(nèi)容(最新推薦)

    正則表達式替換字符串并保留其中部分任意內(nèi)容(最新推薦)

    我們都知道可以用正則表達式,即regex,來進行字符串的匹配,替換,今天小編給大家分享如何用正則表達式替換字符串并保留其中部分任意內(nèi)容,感興趣的朋友跟隨小編一起看看吧
    2023-04-04
  • 最新評論