C#中正則表達(dá)式的3種匹配模式

更新時間：2016年05月05日 09:15:06 作者：波波

本文主要介紹在C#中正則匹配的三種模式：單行模式(Singleline)、多行模式(Multiline)與忽略大小寫(IgnoreCase)，希望能幫到大家。

在C#中，我們一般使用Regex類來表示一個正則表達(dá)式。一般正則表達(dá)式引擎支持以下3種匹配模式：單行模式(Singleline)、多行模式(Multiline)與忽略大小寫(IgnoreCase)。

1. 單行模式(Singleline)
MSDN定義：更改點(diǎn) (.) 的含義，使它與每一個字符匹配（而不是與除 \n 之外的每個字符匹配）。
使用單行模式的典型場景是獲取網(wǎng)頁源碼中的信息。

示例：

我們使用WebBrowser控件，從http://www.xxx.com/1.htm上獲取了如下HTML源碼，它存儲在變量str中：

我們想把div標(biāo)簽以及其中的內(nèi)容提取出來，編寫代碼如下：

string pattern = @"<div>.*</div>";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//結(jié)果為：Mismatch!

錯誤分析：

一般認(rèn)為點(diǎn)符號(.)是匹配任意單個字符的，而(.*)就是匹配任意多個字符。但實(shí)際上點(diǎn)符號不能匹配換行符。在Windows中與它等效的表達(dá)式為[^\r\n]。
而我們從網(wǎng)站上獲取的HTML源碼，極少有不換行的。這時候單行模式派上用場了，它可以改變點(diǎn)符號的意義。修改regex實(shí)例的構(gòu)造函數(shù)，用RegexOptions.Singleline來聲明使用單行模式：

string pattern = @"<div>.*</div>";
Regex regex = new Regex(pattern, RegexOptions.Singleline);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

/*
結(jié)果為：
<div>
Line 1
Line 2
</div>
*/

單行模式的嵌入修飾符：

我們可以直接在正則表達(dá)式中嵌入單行模式：

(?s)<div>.*</div>

(?s)修飾符說明，其后面的表達(dá)式采用單行模式。所以使用時請不要將它放在末尾。另外可以使用(?-s)關(guān)閉單行模式。

注意：嵌入模式的優(yōu)先級要高于Regex類的RegexOptions設(shè)置，所以使用了(?s)后，無論是否使用RegexOptions.Singleline，均按照單行模式解析。

2. 多行模式(Multiline)

MSDN定義：更改 ^ 和 $ 的含義，使它們分別在任意一行的行首和行尾匹配，而不僅僅在整個字符串的開頭和結(jié)尾匹配。

示例：

有一個文本文件，它的每一行是一個用戶名，將文件讀入變量str中進(jìn)行處理。其內(nèi)容如下：

二十四畫生
TerryLee
莫相會
Dflying Chen
Rainy

借用博客園各位前輩的大名:)

我們想找出一個使用英文字母開頭的用戶名，編寫代碼如下：

string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//結(jié)果為：Mismatch!

錯誤分析：

(^)是字符串的起始錨定，str的第一個字符是一個中文字，所以匹配不上。我們就可以使用多行模式來改變(^)的含義，使它匹配每一行的起始，而不是整個字符串的起始。

更改代碼如下：

string pattern = @"^[A-Za-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//結(jié)果為：TerryLee

同時，多行模式也會改變($)的含義，使它匹配每一行的結(jié)尾，而不是整個字符串的結(jié)尾。

與(^)和($)不同的是，(\A)和(\Z)并不受多行模式的影響，永遠(yuǎn)匹配整個字符串的起始和結(jié)尾。

多行模式的嵌入修飾符：(?m)與(?-m)

3. 忽略大小寫(IgnoreCase)

MSDN定義：指定不區(qū)分大小寫的匹配。

這個模式很容易理解，它認(rèn)為大小寫字符是相同的。我們?nèi)砸陨侠齺碚f明。

示例：

string pattern = @"^[a-z]+.*";
Regex regex = new Regex(pattern, RegexOptions.Multiline | RegexOptions.IgnoreCase);
if (regex.IsMatch(str))
  Console.WriteLine(regex.Match(str).Value);
else
  Console.WriteLine("Mismatch!");

//結(jié)果為：TerryLee

分析：請注意這次使用的正則表達(dá)式，我們并沒有寫入大寫字母，但卻匹配了以大寫字母開頭的名字，這就是忽略大小寫的效果。

忽略大小寫的嵌入修飾符：(?i)與(?-i)

總結(jié)：

最后我們用一個表格來總結(jié)一下這三個模式

定義	影響的表達(dá)式	RegexOptions枚舉	嵌入標(biāo)識符
單行模式	更改點(diǎn) (.) 的含義，使它與每一個字符匹配（而不是與除 \n 之外的每個字符匹配）。	Singleline	(?s)
多行模式	更改 ^ 和 $ 的含義，使它們分別在任意一行的行首和行尾匹配，而不僅僅在整個字符串的開頭和結(jié)尾匹配。	Multiline	(?m)
忽略大小寫	指定不區(qū)分大小寫的匹配。	IgnoreCase	(?i)