asp只采集網(wǎng)站可見文本的正則
更新時間:2008年08月15日 13:12:39 作者:
它可以過慮Js 可以過濾 CSS 過濾HTML標(biāo)識,只采集頁面的可見文本。
我寫的是這樣:
Function ClearHTMLCode(originCode)
Dim reg
set reg = new RegExp
reg.IgnoreCase = True
reg.Global = True
reg.Pattern = "(<s+cript(.+?)<\/s+cript>)"
originCode= reg.Replace(originCode, "")
reg.Pattern = "(<s+tyle(.+?)<\/s+tyle>)"
originCode= reg.Replace(originCode, "")
reg.Pattern = "<[^>]*>"
originCode= reg.Replace(originCode, "")
ClearHTMLCode = originCode
End Function
不過有一些過濾不了!而且速度太慢!
相關(guān)文章
Javascript 字符串字節(jié)長度計算函數(shù)代碼與效率分析(for VS 正則)
下面的函數(shù)都是用于計算字符串長度,英文算一個,中文算兩個。效果一樣,效率卻未必一樣,大家可以自行選擇下。2009-12-12正則基礎(chǔ)之 環(huán)視 Lookaround
環(huán)視只進行子表達式的匹配,不占有字符,匹配到的內(nèi)容不保存到最終的匹配結(jié)果,是零寬度的。環(huán)視匹配的最終結(jié)果就是一個位置。2009-07-07