C#正則表達(dá)式匹配HTML中的圖片路徑,圖片地址代碼
我們可以從 HTML 標(biāo)簽的格式去想應(yīng)該怎么建這個(gè)正則表達(dá)式。首先要想一下 img 標(biāo)簽有幾種寫法,忽略大小寫不看的話,下面列出 img 標(biāo)簽可能出現(xiàn)的幾種情況。
<img> <img/> <img src=/>
這一些標(biāo)簽不用考慮,因?yàn)闆]有圖片資源地址。
<img src = /images/pic.jpg/ > <img src =" /images/pic.jpg" > <img src= '/images/pic.jpg ' / >
這一些標(biāo)簽都有圖片資源地址,另外還有一個(gè)特點(diǎn)就是有引號(hào)對(duì),可能為單引號(hào),也可能為雙引號(hào)。因?yàn)椴恍枰瑫r(shí)匹配引號(hào)對(duì),所以正則表達(dá)式可以這么寫:@"<img\s*src\s*=\s*[""']?\s*(?[^\s""'<>]*)\s*/?\s*>"
<img width="320" height="240" src=/images/pic.jpg onclick="window.open('/images/pic.jpg')">
因?yàn)?img 和 src 之間可能會(huì)有其他的參數(shù),所以“<img”要有個(gè)單詞結(jié)束,比如說(shuō)不能是“<imgabc”,同樣 src 前面也是一樣,使用單詞結(jié)束符“\b”有一個(gè)好處就是省去了表示空格的“\s*”。另外由于 img 標(biāo)簽中不可以出現(xiàn)“<”、“>”這樣的符號(hào),所以要改寫前面的正則表達(dá)式:@"<img\b[^<>]*?\bsrc\s*=\s*[""']?\s*(?<imgUrl>[^\s""'<>]*)[^<>]*?/?\s*>"
<img width="320" height="240" src = "
/images/pic.jpg" />
像這種可能會(huì)用回車符折行的問題有時(shí)候會(huì)出現(xiàn),所以在有空格分開的地方要包含回車換行和 TAB 字符,另外在圖片地址中不能出現(xiàn)空格、TAB、回車和換行字符。所以上面的正則表達(dá)式可以改成:@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r \n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>"
下面寫出取得HTML中所有圖片地址的靜態(tài)方法。
/// <summary> /// 取得HTML中所有圖片的 URL。
/// </summary> /// <param name="sHtmlText">HTML代碼</param> /// <returns>圖片的URL列表</returns> public static string[] GetHtmlImageUrlList(string sHtmlText)
{
// 定義正則表達(dá)式用來(lái)匹配 img 標(biāo)簽 Regex regImg = new Regex(@"<img\b[^<>]*?\bsrc[\s\t\r\n]*=[\s\t\r\n]*[""']?[\s\t\r\n]*(?<imgUrl>[^\s\t\r\n""'<>]*)[^<>]*?/?[\s\t\r\n]*>", RegexOptions.IgnoreCase);
// 搜索匹配的字符串 MatchCollection matches = regImg.Matches(sHtmlText);
int i = 0;
string[] sUrlList = new string[matches.Count];
// 取得匹配項(xiàng)列表 foreach (Match match in matches)
sUrlList[i++] = match.Groups["imgUrl"].Value;
return sUrlList;
}
- 解決Vue項(xiàng)目打包后打開index.html頁(yè)面顯示空白以及圖片路徑錯(cuò)誤的問題
- JS/HTML5游戲常用算法之路徑搜索算法 A*尋路算法完整實(shí)例
- JS/HTML5游戲常用算法之路徑搜索算法 隨機(jī)迷宮算法詳解【普里姆算法】
- Python基于lxml模塊解析html獲取頁(yè)面內(nèi)所有葉子節(jié)點(diǎn)xpath路徑功能示例
- nginx配置訪問圖片路徑以及html靜態(tài)頁(yè)面的調(diào)取方法
- 如何使用php腳本給html中引用的js和css路徑打上版本號(hào)
- python輸出當(dāng)前目錄下index.html文件路徑的方法
- asp.net獲取HTML表單File中的路徑的方法
- HTML 絕對(duì)路徑與相對(duì)路徑概念詳細(xì)
相關(guān)文章
使用C#創(chuàng)建Windows服務(wù)的實(shí)例代碼
這篇文章主要介紹了使用C#創(chuàng)建Windows服務(wù)的實(shí)例代碼,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來(lái)看看吧2017-07-07C# linq查詢之動(dòng)態(tài)OrderBy用法實(shí)例
這篇文章主要介紹了C# linq查詢之動(dòng)態(tài)OrderBy用法,實(shí)例分析了C#采用linq方式查詢時(shí)動(dòng)態(tài)排序的相關(guān)技巧,需要的朋友可以參考下2015-06-06淺談C# StringBuilder內(nèi)存碎片對(duì)性能的影響
這篇文章主要介紹了淺談StringBuilder內(nèi)存碎片對(duì)性能的影響,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-03-03C#泛型集合類System.Collections.Generic
這篇文章介紹了C#中的泛型集合類System.Collections.Generic,文中通過示例代碼介紹的非常詳細(xì)。對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-05-05C#使用Lambda表達(dá)式簡(jiǎn)化代碼的示例詳解
Lambda,希臘字母λ,在C#編程語(yǔ)言中,被引入為L(zhǎng)ambda表達(dá)式,表示為匿名函數(shù)(匿名方法)。本文將利用Lambda表達(dá)式進(jìn)行代碼的簡(jiǎn)化,感興趣的可以了解一下2022-12-12C#實(shí)現(xiàn)變量交換、斐波那契數(shù)列、質(zhì)數(shù)、回文方法合集
這篇文章介紹了C#實(shí)現(xiàn)變量交換、斐波那契數(shù)列、質(zhì)數(shù)、回文的方法合集,文中通過示例代碼介紹的非常詳細(xì)。對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-02-02