正則基礎(chǔ)之 \b 單詞邊界
1 、概述
“\b”匹配單詞邊界,不匹配任何字符。
“\b”匹配的只是一個(gè)位置,這個(gè)位置的一側(cè)是構(gòu)成單詞的字符,另一側(cè)為非單詞字符、字符串的開始或結(jié)束位置。“\b”是零寬度的。
基本上所有的資料里都會(huì)說“\b”是單詞邊界,但是關(guān)于“單詞”的范圍卻是少有提及。通常情況下,正則表達(dá)式中所謂的“單詞”,就是由“\w”所定義的字符所組成的子串。
“\b”表示所在位置的一側(cè)為單詞字符,另一側(cè)為非單詞字符、字符串的開始或結(jié)束位置,也就相當(dāng)于
(?<!\w)(?=\w)|(?<=\w)(?!\w)
思考:以下寫法為什么不等價(jià)于“\b”
(?<=\W)(?=\w)|(?<=\w)(?=\W)
2、\w的范圍
即然涉及到“\w”,那就要先考察一下它的范圍。
在支持ASCII碼的語言中,如JavaScript,“\w”等價(jià)于[a-zA-Z0-9_] ;
在支持Unicode的語言中,如.NET,默認(rèn)情況下,“\w”除可以匹配[a-zA-Z0-9_]外,還可以匹配一些Unicode字符集,如漢字,全角數(shù)字等等。
幾乎所有常見的語言都遵循這樣一個(gè)規(guī)律,只有Java是個(gè)例外。在Java中,“\w”的表現(xiàn)是比較奇怪的,Java是支持Unicode的,但Java的正則中的“\w”卻是等價(jià)于[a-zA-Z0-9_]的。
先來看一下“\w”在幾種語言中匹配的例子
JavaScript
<script language="javascript"> var str = "abc_123中文_d3=efg漢字%"; var reg = /\w+/g; var arr = str.match(reg); if(arr != null) { for(var i=0;i<arr.length;i++) { document.write(arr[i] + "<br />"); } } </script>
/*-------- JavaScript中輸出--------
abc_123
_d3
Efg
*/
C#
string test = "abc_123中文_d3=efg漢字%"; MatchCollection mc = Regex.Matches(test, @"\w+"); foreach (Match m in mc) { richTextBox2.Text += m.Value + "\n"; } /*-------- C#中輸出-------- abc_123中文_d3 efg漢字 */
Java
String test = "abc_123中文_d3=efg漢字%"; String reg = "\\w+"; Matcher m = Pattern.compile(reg).matcher(test); while(m.find()) { System.out.println(m.group()); } /*-------- Java中輸出-------- abc_123 _d3 Efg */
可以看到,“\w”在Java中的輸出和JavaScript中是一樣的,都是只支持ASCII字符。
3、\b的范圍
常見語言中“\w”的范圍確定了,那么是不是可以認(rèn)為“\b”的匹配范圍與“\w”也是一致的呢?
再看下下面的例子:
源字符串:abc_123中文_d3=漢字efg
正則表達(dá)式:.\b.
JavaScript
<script language="javascript"> var str = "abc_123中文_d3=efg漢字%"; var reg = /.\b./g; var arr = str.match(reg); if(arr != null) { for(var i=0;i<arr.length;i++) { document.write(arr[i] + "<br />"); } } </script> /*-------- JavaScript中輸出-------- 3中 文_ 3= g漢 */
C#
string test = "abc_123中文_d3=efg漢字%"; MatchCollection mc = Regex.Matches(test, @".\b."); foreach (Match m in mc) { richTextBox2.Text += m.Value + "\n"; } /*-------- C#中輸出-------- 3= 字% */
Java
String test = "abc_123中文_d3=efg漢字%"; String reg = ".\\b."; Matcher m = Pattern.compile(reg).matcher(test); while(m.find()) { System.out.println(m.group()); } /*-------- Java中輸出-------- 3= 字% */
可以看到,Java的輸出和.NET是一致的,“\b”在Java中是支持Unicode的。
所以總的來說,Java中的“\w”是很奇怪的,而“\b”是與其它語言表現(xiàn)一致的,在使用時(shí)需要注意。
4、\b應(yīng)用場(chǎng)景
4.1 基礎(chǔ)應(yīng)用
“\b”一般應(yīng)用在需要匹配某一單詞字符組成的子串,但這一字符不能包含在同樣由單詞字符組成的更長(zhǎng)的子串中。
比如要替換掉一段英文中的單詞“to”,而“today”顯然不在替換的范圍內(nèi),所以正則可以用“\bto\b”來限定。
用得比較多的場(chǎng)景是在HTML標(biāo)簽的匹配中,用以區(qū)分相互包含的標(biāo)簽,比如要過濾掉<b>、</b>、<p…>、<img…>等標(biāo)簽,但要保留<br />標(biāo)簽,正則可以寫成
“<(/?b|p|img)\b[^>]*>”。
舉例:統(tǒng)計(jì)以“,”分割的元素中“3”的個(gè)數(shù)
string?test =?"137,1,33,4,3,6,21,3,35,93,2,98"; int?count =?Regex.Matches(test,?@"\b3\b").Count;?//結(jié)果:2
4.2 進(jìn)階應(yīng)用
稍復(fù)雜一些的應(yīng)用通常都是與其它一些正則語法規(guī)則一起使用的,參考一個(gè)帖子 求一正則表達(dá)式
4.3 特殊情況
“\b”用在正則中,通常情況下都是表示單詞邊界的,只有在字符組中,它表示的是退格鍵,即
[a-z\b]
此處的“\b”表示的是退格鍵,而不是單詞邊界。
到此這篇關(guān)于正則基礎(chǔ)之 \b 單詞邊界的文章就介紹到這了,更多相關(guān)正則 單詞邊界內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
javascript RegExp對(duì)象(正則表達(dá)式)
JavaScript提供了一個(gè)RegExp對(duì)象來完成有關(guān)正則表達(dá)式的操作和功能,每一條正則表達(dá)式模式對(duì)應(yīng)一個(gè)RegExp實(shí)例。有兩種方式可以創(chuàng)建RegExp對(duì)象的實(shí)例。2009-05-05使用正則表達(dá)式實(shí)現(xiàn)網(wǎng)頁爬蟲的思路詳解
網(wǎng)頁爬蟲:就是一個(gè)程序用于在互聯(lián)網(wǎng)中獲取指定規(guī)則的數(shù)據(jù)。這篇文章主要介紹了使用正則表達(dá)式實(shí)現(xiàn)網(wǎng)頁爬蟲的思路詳解,需要的朋友可以參考下2018-12-12淺談?wù)齽t表達(dá)式中的分組和引用實(shí)現(xiàn)方法
由正則表達(dá)式如何匹配相同字符出發(fā),講講正則表達(dá)式中的選擇、分組和引用,和牛逼的存在缺失很少遇到2019-10-10正則表達(dá)式--QQ微信、優(yōu)酷前端 郵箱正則表達(dá)式驗(yàn)證 Bug
但凡稍微有點(diǎn)資歷的程序員,都免不了要寫正則表達(dá)驗(yàn)證算法。最近見到好幾個(gè)正則表達(dá)式的Bug,抽空寫出來2011-10-10eregi_replace與preg_replace 函數(shù)代碼的用法比較
eregi_replace與preg_replace 函數(shù)代碼的用法比較...2007-03-03