正則表達式之字符組簡記法與字符組運算
字符組簡記法
用[0-9]、[a-z]等字符組,可以很方便地表示數(shù)字字符和小寫字母字符。對于這類常用的字符組,正則表達式提供了更簡單的記法,這就是字符組簡記法(shorthands)。
常見的字符組簡記法有\(zhòng)d、\w、\s。從表面上看,它們與[…]完全沒聯(lián)系,其實是一致的。其中\(zhòng)d等價于[0-9],其中的d代表"數(shù)字(digit)";\w等價于[0-9a-zA-Z_],其中的w代表"單詞字符(word)";\s等價于[ \t\r\n\v\f](第一個字符是空格),s表示"空白字符(space)"。例1-17說明了這幾個字符組簡記法的典型匹配。
例1-17 字符組簡記法\d、\w、\s
#如果沒有原生字符串,\d就必須寫作\\d re.search(r"^\d$", "8") != None # => True re.search(r"^\d$", "a") != None # => False re.search(r"^\w$", "8") != None # => True re.search(r"^\w$", "a") != None # => True re.search(r"^\w$", "_") != None # => True re.search(r"^\s$", " ") != None # => True re.search(r"^\s$", "\t") != None # => True re.search(r"^\s$", "\n") != None # => True
一般印象中,單詞字符似乎只包含大小寫字母,但是字符組簡記法中的"單詞字符"不只有大小寫單詞,還包括數(shù)字字符和下畫線_,其中的下畫線_尤其值得注意:在進行數(shù)據(jù)驗證時,有可能只容許輸入"數(shù)字和字母
",有人會偷懶用\w驗證,而忽略了\w能匹配下畫線,所以這種匹配并不嚴格,[0-9a-zA-Z]
才是準確的選擇。
"空白字符"并不難定義,它可以是空格字符、制表符\t
,回車符\r
,換行符\n
等各種"空白"字符,只是不方便展現(xiàn)(因為顯示和印刷出來都是空白)。不過這也提醒我們注意,匹配時看到的"空白"可能不是空格字符,因此,\s
才是準確的選擇。
字符組簡記法可以單獨出現(xiàn),也可以使用在字符組中,比如[0-9a-zA-Z]
也可以寫作[\da-zA-Z]
,所以匹配十六進制字符的字符組可以寫成[\da-fA-F]
。字符組簡記法也可以用在排除型字符組中,比如[^0-9]就可以寫成[^\d]
,[^0-9a-zA-Z_]
就可以寫成[^\w],代碼如例1-18。
例1-18 字符組簡記法與普通字符組混用
#用在普通字符組內(nèi)部 re.search(r"^[\da-zA-Z]$", "8") != None # => True re.search(r"^[\da-zA-Z]$", "a") != None # => True re.search(r"^[\da-zA-Z]$", "C") != None # => True #用在排除型字符組內(nèi)部 re.search(r"^[^\w]$", "8") != None # => False re.search(r"^[^\w]$", "_") != None # => False re.search(r"^[^\w]$", ",") != None # => True
相對于\d、\w和\s這三個普通字符組簡記法,正則表達式也提供了對應(yīng)排除型字符組的簡記法:\D、\W和\S--字母完全一樣,只是改為大寫。這些簡記法匹配的字符互補:\s能匹配的字符,\S一定不能匹配;\w能匹配的字符,\W一定不能匹配;\d能匹配的字符,\D一定不能匹配。例1-19示范了這幾個字符組簡記法的應(yīng)用。
例1-19 \D、\W、\S的使用
#\d和\D re.search(r"^\d$", "8") != None # => True re.search(r"^\d$", "a") != None # => False re.search(r"^\D$", "8") != None # => False re.search(r"^\D$", "a") != None # => True #\w和\W re.search(r"^\w$", "c") != None # => True re.search(r"^\w$", "!") != None # => False re.search(r"^\W$", "c") != None # => False re.search(r"^\W$", "!") != None # => True #\s和\S re.search(r"^\s$", "\t") != None # => True re.search(r"^\s$", "0") != None # => False re.search(r"^\S$", "\t") != None # => False re.search(r"^\S$", "0") != None # => True
妥善利用這種互補的屬性,可以得到一些非常巧妙的效果,最簡單的應(yīng)用就是字符組[\s\S]。初看起來,在同一個字符組中并列兩個互補的簡記法,這種做法有點奇怪,不過仔細想想就會明白,\s和\S組合在一起,匹配的就是"所有的字符"(或者叫"任意字符")。許多語言中的正則表達式并沒有直接提供"任意字符"的表示法,所以[\s\S]、[\w\W]、[\d\D]雖然看起來有點古怪,但確實可以匹配任意字符 。
關(guān)于字符組簡記法,最后需要補充兩點:第一,如果字符組中出現(xiàn)了字符組簡記法,最好不要出現(xiàn)單獨的-,否則可能引起錯誤,比如[\d-a]就很讓人迷惑,在有些語言中,-會被作為普通字符,而在有些語言中,這樣寫會報錯;第二,以上說的\d、\w、\s的匹配規(guī)則,都是針對ASCII編碼而言的,也叫ASCII匹配規(guī)則。但是,目前一些語言中的正則表達式已經(jīng)支持了Unicode字符,那么數(shù)字字符、單詞字符、空白字符的范圍,已經(jīng)不僅僅限于ASCII編碼中的字符。關(guān)于這個問題,具體細節(jié)在后文有詳細的介紹,如果你現(xiàn)在就想知道,可以翻到第115頁。
正則表達式——字符組運算
以上介紹了字符組的基本功能,它們在常用的語言中都有提供;還有些語言中為字符組提供了更強大的功能,比如Java和.NET就提供了字符組運算的功能,可以在字符組內(nèi)進行集合運算,在某些情況下這種功能非常實用。
如果要匹配所有的元音字母(為講解簡單考慮,暫時只考慮小寫字母的情況),可以用[aeiou],但是要匹配所有的輔音字母卻沒有什么方便的辦法,最直接的寫法是[b-df-hj-np-tv-z],不但煩瑣,而且難理解。其實,從26個字母中"減去"元音字母,剩下的就是輔音字母,如果有辦法做這個"減法",就方便多了。
Java語言中提供了這樣的字符組:[[a-z]&&[^aeiou]],雖然初看有點古怪,但仔細看看,也不難理解。[a-z]表示26個英文字母,[^aeiou]表示除元音字母之外的所有字符(還包括大寫字母、數(shù)字和各種符號),兩者取交集,就得到"26個英文字母中,除去5個元音字母,剩下的21個輔音字母"。
.NET中也有這樣的功能,只是寫法不一樣。同樣是匹配輔音字母的字符組,.NET中寫作[a-z-[aeiou]],其邏輯是:從[a-z]能匹配的26個字符中,"減去"[aeiou]能匹配的元音字母。相對于Java,這種邏輯更符合直覺,但寫法卻有點古怪--不是[[a-z]-[aeiou]],而是[a-z-[aeiou]]。例1-20集中演示了Java和.NET中的字符組運算。
例1-20 字符組運算
// Java "a".matches("^[[a-z]&&[^aeiou]]$"); // => True False "b".matches("^[[a-z]&&[^aeiou]]$"); // => False True // .NET Regex.IsMatch("^[a-z-[aeiou]]$", "a"); // => True False Regex.IsMatch("^[a-z-[aeiou]]$", "b"); // => False True*紅色為更正
到此這篇關(guān)于正則表達式之字符組簡記法與字符組運算的文章就介紹到這了,更多相關(guān)正則字符組簡記法與運算內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
SQL正則表達式錯誤 “parentheses not balanced“ 問題
在實際開發(fā)中,數(shù)據(jù)庫查詢經(jīng)常需要使用正則表達式(REGEXP)來篩選復(fù)雜條件下的數(shù)據(jù),然而,一些開發(fā)者在操作中可能會遇到類似以下錯誤parentheses not balanced,所以本文給大家介紹了SQL正則表達式錯誤 “parentheses not balanced“ 問題的排查和解決方案2024-12-12正則表達式Regular Expression (RegExp)詳解
正則表達式,又稱正規(guī)表示式、正規(guī)表示法、正規(guī)表達式、規(guī)則表達式、常規(guī)表示法(英語:Regular Expression,在代碼中常簡寫為regex、regexp或RE2015-11-11正則表達式之字符組[?](Character?Classes)
字符組是正則表達式最基本的結(jié)構(gòu)之一,這里就為大家介紹一下字符組[]的正確使用方法,需要的朋友可以參考下2023-05-05