正則表達式輕松消除HTML代碼
更新時間:2009年02月27日 20:46:18 作者:
正則表達式再次讓我震撼,寥寥數(shù)行代碼就可以完成普通代碼不易實現(xiàn)的功能,至少是實現(xiàn)起來比較復(fù)雜的功能。
一、清楚內(nèi)容中的Javsscript 代碼
Function ClearJSCode(originCode)
Dim reg
set reg = New RegExp
reg.Pattern = "<SCRIPT[^<]*</SCRIPT>"
reg.IgnoreCase = True
reg.Global = True
clearJSCode = reg.Replace(originCode, "")
End Function
二、清除內(nèi)容中的HTML代碼
Function ClearHTMLCode(originCode)
Dim reg
set reg = new RegExp
reg.Pattern = "<[^>]*>"
reg.IgnoreCase = True
reg.Global = True
ClearHTMLCode = reg.Replace(originCode, "")
End Function
現(xiàn)在好多網(wǎng)站的內(nèi)容都是使用采集程序生成的,使用上邊的代碼就可以輕松的將內(nèi)容中的HTML和JS代碼清除掉。
復(fù)制代碼 代碼如下:
Function ClearJSCode(originCode)
Dim reg
set reg = New RegExp
reg.Pattern = "<SCRIPT[^<]*</SCRIPT>"
reg.IgnoreCase = True
reg.Global = True
clearJSCode = reg.Replace(originCode, "")
End Function
二、清除內(nèi)容中的HTML代碼
復(fù)制代碼 代碼如下:
Function ClearHTMLCode(originCode)
Dim reg
set reg = new RegExp
reg.Pattern = "<[^>]*>"
reg.IgnoreCase = True
reg.Global = True
ClearHTMLCode = reg.Replace(originCode, "")
End Function
現(xiàn)在好多網(wǎng)站的內(nèi)容都是使用采集程序生成的,使用上邊的代碼就可以輕松的將內(nèi)容中的HTML和JS代碼清除掉。
相關(guān)文章

c# 正則表達式對網(wǎng)頁進行有效內(nèi)容抽取
本問主要總結(jié)了用正則表達式對網(wǎng)頁進行有效內(nèi)容提取的具體實現(xiàn)方法,并給出了c#代碼
2009-03-03 ![正則表達式 特殊字符應(yīng)用分析[簡單詳細入門必看]](http://img.jbzj.com/images/xgimg/bcimg8.png)
正則表達式 特殊字符應(yīng)用分析[簡單詳細入門必看]
網(wǎng)上的東西,都沒有這個詳細,對于想入手正則表達式高級應(yīng)用的朋友,也是個不錯的資料參考。
2008-11-11