C++使用正則表達(dá)式的詳細(xì)教程
正則表達(dá)式
正則表達(dá)式(regular expression)是一種描述字符序列的方法,是一種極其強(qiáng)大的計(jì)算工具。
C++正則表達(dá)式庫(kù)(RE庫(kù))定義在<regex>
中,它包含多個(gè)組件。
RE庫(kù)組件
解釋 | |
---|---|
regex | 表示有一個(gè)正則表達(dá)式的類 |
regex_match | 將一個(gè)字符序列與一個(gè)正則表達(dá)式匹配 |
regex_search | 尋找第一個(gè)與正則表達(dá)式匹配的子序列 |
regex_replace | 使用給定格式替換一個(gè)正則表達(dá)式 |
sregex_iterator | 迭代器適配器,調(diào)用regex_search來(lái)遍歷一個(gè)string中所有匹配的子串 |
smatch | 容器類,保存在string中搜索的結(jié)果 |
ssub_match | string中匹配的子表達(dá)式的結(jié)果 |
正則表達(dá)式的使用
#include <regex> void test() { //查找不是在字符c之后的ei組合存在的單詞 string pattern("[^c]ei"); pattern = "[[:alpha:]]*" + pattern + "[[:alpha:]]*"; regex r(pattern); smatch results; string test_str("receipt freind theif receive"); if (regex_search(test_str, results, r)) cout << results.str() << endl;//freind }
regex迭代器類型
上面的程序只能查找第一個(gè)匹配到的單詞,如果想獲得所有匹配,可以使用sregex_iterator
。
for (sregex_iterator it(test_str.begin(),test_str.end(),r), end_it;it != end_it;++it) { cout << it->str() << endl; }
輸出:
freind
theif
for循環(huán)中定義了兩個(gè)迭代器,it負(fù)責(zé)尋找匹配的單詞,end_it是一個(gè)空迭代器,起到尾后迭代器的作用。
解引用迭代器會(huì)得到一個(gè)匹配結(jié)果的smatch對(duì)象。
除了得到匹配的smatch對(duì)象以外,還可以得到其上下文。
for (sregex_iterator it(test_str.begin(),test_str.end(),r), end_it;it != end_it;++it) { auto pos = it->prefix().length(); pos = pos > 40 ? pos - 40 : 0; cout << it->prefix().str().substr(pos) << "[ " << it->str() << " ]" << it->suffix().str().substr(0, 40) << endl; }
輸出:
receipt [ freind ] theif receive
[ theif ] receive
使用prefix和suffix函數(shù)可以得到匹配之前和之后的ssub_match對(duì)象。
smatch相關(guān)操作
解釋 | |
---|---|
m.ready() | 若已通過(guò)regex_search或regex_match設(shè)置了m,則返回true;否則返回false |
m.size() | 如果匹配失敗,返回0;否則返回最近一次匹配的正則表達(dá)式中子表達(dá)式的數(shù)目 |
m.empty() | 若m.size()==0,返回true |
m.prefix() | 一個(gè)ssub_match對(duì)象,表示當(dāng)前匹配之前的序列 |
m.suffix() | 一個(gè)ssub_match對(duì)象,表示當(dāng)前匹配之后的部分 |
m.format() | 格式化輸出 |
m.length(n) | 第n個(gè)匹配的子表達(dá)式的大小 |
m.position(n) | 第n個(gè)子表達(dá)式距序列開始的距離 |
m.str(n) | 第n個(gè)子表達(dá)式匹配的string |
m[n] | 對(duì)應(yīng)第n個(gè)子表達(dá)式的ssub_match對(duì)象 |
m.begin(),m.end() | m中sub_match元素范圍的迭代器 |
m.cbegin(),m.cend() | m中sub_match元素范圍的常量迭代器 |
這些操作也適用于cmatch、wsmatch、wcmatch和對(duì)應(yīng)的子匹配對(duì)象。
子表達(dá)式
正則表達(dá)式中的模式通常包含一個(gè)或多個(gè)子表達(dá)式(subexpression)。
一個(gè)子表達(dá)式是模式的一部分,本身也具有意義。
正則表達(dá)式語(yǔ)法同常用小括號(hào)表示子表達(dá)式。
eg: 可以使用子表達(dá)式來(lái)匹配文件擴(kuò)展名
regex r("([[:alnum:]]+)\\.(cpp|cxx|cc)$");
現(xiàn)在模式中有兩個(gè)小括號(hào)表示的子表達(dá)式:
- ([[:alnum:]]+) 匹配一個(gè)或多個(gè)數(shù)字字母序列
- (cpp|cxx|cc) 匹配cpp或cxx或cc等擴(kuò)展名
通過(guò)使用str(n)來(lái)打印子表達(dá)式
if (regex_search(filename, results, r)) cout << results.str(1) << endl;//打印第一個(gè)子表達(dá)式
參數(shù)0代表整個(gè)對(duì)應(yīng)的匹配,參數(shù)1表示第一個(gè)子表達(dá)式。
如,foo.cpp中,results.str(0)將保存foo.cpp,results.str(1)將保存foo。
子表達(dá)式用于數(shù)據(jù)驗(yàn)證
子表達(dá)式的一個(gè)常見用途是驗(yàn)證必須匹配特定格式的數(shù)據(jù)。
eg:匹配聯(lián)通號(hào)碼
中國(guó)聯(lián)通號(hào)段:130、131、132、145、155、156、166、175、176、185、186、196
使用開源工具Regulex實(shí)現(xiàn)正則表達(dá)式設(shè)計(jì)可視化。
void test02() { //匹配聯(lián)通號(hào)碼 string UnicomNumber("\\b(1)(3[0-2]|[4578]5|[5-9]6)(\\d{4})(\\d{4})\\b"); regex r(UnicomNumber); string testNumbers("130123456789 23112345678 7602125 1320000 16512345678 14512345678 17612345678"); for (sregex_iterator it(testNumbers.begin(), testNumbers.end(), r), end_it;it != end_it;++it) { cout << it->str() << endl; } }
結(jié)果:
1451234567817612345678
解釋:
在模式UnicomNumber中,有4個(gè)子表達(dá)式
子表達(dá)式索引號(hào) | 子表達(dá)式 | 含義 |
---|---|---|
子表達(dá)式1 | (1) | 匹配1 |
子表達(dá)式2 | (3[0-2]|[4578]5|[5-9]6) | 匹配30/31/32/45/55/75/85/56/66/76/86/96 |
子表達(dá)式3 | (\d{4}) | 匹配任意4個(gè)數(shù)字 |
子表達(dá)式4 | (\d{4}) | 匹配任意4個(gè)數(shù)字 |
此外,"\b"匹配單詞邊界,可以理解為空格與單詞的分界線。"\d"匹配任意數(shù)字。[]內(nèi)表示多選一,{n}表示匹配n個(gè),子表達(dá)式內(nèi)"|"表示或。
并且,在正則表達(dá)式語(yǔ)法中"\“具有轉(zhuǎn)義作用,在C++中也有轉(zhuǎn)義作用,因此,為了得到正則表達(dá)式中的”\",需要在string中額外加一個(gè)"\"。所以我們的表達(dá)式中會(huì)有"\\b"和"\\d"。
在正則匹配過(guò)程中,迭代器查找每一個(gè)號(hào)碼,進(jìn)行分析
號(hào)碼 | 分析 |
---|---|
130123456789 | 多了一位數(shù)字,單詞邊界匹配失敗 |
23112345678 | 子表達(dá)式1匹配失敗 |
7602125 | 子表達(dá)式1匹配失敗 |
1320000 | 子表達(dá)式3匹配失敗(或者說(shuō)是邊界匹配失?。? |
16512345678 | 子表達(dá)式2匹配失敗 |
14512345678 | 匹配成功 |
17612345678 | 匹配成功 |
子匹配操作
ssub_match的相關(guān)操作
解釋 | |
---|---|
matched | 一個(gè)public bool成員,指出此ssub_match是否匹配了 |
first,second | public數(shù)據(jù)成員,指向匹配序列首元素和尾后迭代器 |
length() | 匹配的大小 |
str() | 匹配的string |
s = ssub | 將ssub_match對(duì)象轉(zhuǎn)化為string對(duì)象 |
添加一段代碼,測(cè)試一下matched成員
for (sregex_iterator it(testNumbers.begin(), testNumbers.end(), r), end_it;it != end_it;++it) { cout << it->str() << endl; cout << "\t" << (*it)[4].matched << endl; }
結(jié)果
14512345678
1
17612345678
1
這里的matched為true表示匹配到了,當(dāng)然,UnicomNumber的子表達(dá)式并非是可選匹配的(用"?"跟在一個(gè)表達(dá)式后表示可以有1個(gè)或0個(gè)該表達(dá)式),所以它的四個(gè)子表達(dá)式全部匹配到了,若是可選表達(dá)式,可能會(huì)出現(xiàn)matched為false的情況。
regex_replace
正則表達(dá)式不僅用在查找給定序列方面,當(dāng)我們想將查找到的序列替換為另一個(gè)序列時(shí),可使用regex_replace。
eg:格式化輸出電話號(hào)碼
void test03() { string UnicomNumber("\\b(1)(3[0-2]|[4578]5|[5-9]6)(\\d{4})(\\d{4})\\b"); regex r(UnicomNumber); string fmt = "$1$2 $3 $4"; string number = "14512345678"; cout << regex_replace(number,r,fmt) << endl; }
結(jié)果:
145 1234 5678
解釋:
使用"$"后跟子表達(dá)式的索引號(hào)來(lái)表示一個(gè)特定的子表達(dá)式。
在"$1$2 $3 $4"中,希望子表達(dá)式1和2在一起,跟子表達(dá)式3和4之間都使用空格(" ")隔開。
參考資料
《C++ Primer 第5版》
總結(jié)
到此這篇關(guān)于C++使用正則表達(dá)式的文章就介紹到這了,更多相關(guān)C++正則表達(dá)式使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
詳解C語(yǔ)言結(jié)構(gòu)體,枚舉,聯(lián)合體的使用
這篇文章主要給大家介紹一下關(guān)于C語(yǔ)言中結(jié)構(gòu)體、枚舉、聯(lián)合體的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考一下2022-07-07使用C++創(chuàng)建多個(gè)IPC機(jī)制的上層接口
設(shè)計(jì)一個(gè)上層的IPC接口,這個(gè)接口將在未來(lái)封裝底層的通信機(jī)制,這樣的設(shè)計(jì)要求接口足夠抽象,以便于底層實(shí)現(xiàn)的細(xì)節(jié)對(duì)上層用戶透明,本文給大家介紹了如何使用C++創(chuàng)建多個(gè)IPC機(jī)制的上層接口,文中通過(guò)代碼示例介紹的非常詳細(xì),需要的朋友可以參考下2023-12-12利用C++編寫簡(jiǎn)易寶可夢(mèng)對(duì)戰(zhàn)小游戲
本文利用C++語(yǔ)言編寫了一個(gè)小時(shí)候課間嘴上玩的那種寶可夢(mèng)游戲,只有早期的三個(gè)寶可夢(mèng)和基礎(chǔ)招式,感興趣的朋友快跟隨小編一起學(xué)習(xí)學(xué)習(xí)吧2022-06-06OpenCV提取圖像中圓線上的數(shù)據(jù)具體流程
在對(duì)圖像進(jìn)行處理時(shí),經(jīng)常會(huì)要提取出圖像中某條直線、圓線或者ROI區(qū)域內(nèi)的感興趣數(shù)據(jù),進(jìn)行重點(diǎn)關(guān)注。本文主要介紹了利用OpenCV獲取圖像中圓線上的數(shù)據(jù),需要的可以參考一下2021-11-11C語(yǔ)言雙向鏈表實(shí)現(xiàn)根據(jù)使用頻率安排元素位置的功能實(shí)例代碼
這篇文章主要介紹了C語(yǔ)言雙向鏈表實(shí)現(xiàn)根據(jù)使用頻率安排元素位置的功能實(shí)例代碼的相關(guān)資料,需要的朋友可以參考下2017-03-03OpenCV實(shí)現(xiàn)單目尺寸估計(jì)的案例詳解
這篇文章主要介紹了通過(guò)OpenCV如何實(shí)現(xiàn)單目尺寸估計(jì),文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)和工作有一定的參考價(jià)值,感興趣的可以了解一下2022-01-01C語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)和雙向鏈表操作
這篇文章主要介紹了C語(yǔ)言實(shí)現(xiàn)數(shù)據(jù)結(jié)構(gòu)雙向鏈表操作,需要的朋友可以參考下2017-03-03