亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

詳解用Python處理HTML轉(zhuǎn)義字符的5種方式

 更新時(shí)間:2017年12月27日 08:35:32   作者:liuzhijun  
本文介紹了詳解用Python處理HTML轉(zhuǎn)義字符的5種方式,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧

寫爬蟲是一個(gè)發(fā)送請(qǐng)求,提取數(shù)據(jù),清洗數(shù)據(jù),存儲(chǔ)數(shù)據(jù)的過程。在這個(gè)過程中,不同的數(shù)據(jù)源返回的數(shù)據(jù)格式各不相同,有 JSON 格式,有 XML 文檔,不過大部分還是 HTML 文檔,HTML 經(jīng)常會(huì)混雜有轉(zhuǎn)移字符,這些字符我們需要把它轉(zhuǎn)義成真正的字符。

什么是轉(zhuǎn)義字符

在 HTML 中 <、>、& 等字符有特殊含義(<,> 用于標(biāo)簽中,& 用于轉(zhuǎn)義),他們不能在 HTML 代碼中直接使用,如果要在網(wǎng)頁中顯示這些符號(hào),就需要使用 HTML 的轉(zhuǎn)義字符串(Escape Sequence),例如 < 的轉(zhuǎn)義字符是 <,瀏覽器渲染 HTML 頁面時(shí),會(huì)自動(dòng)把轉(zhuǎn)移字符串換成真實(shí)字符。

轉(zhuǎn)義字符(Escape Sequence)由三部分組成:第一部分是一個(gè) & 符號(hào),第二部分是實(shí)體(Entity)名字,第三部分是一個(gè)分號(hào)。 比如,要顯示小于號(hào)(<),就可以寫< 。

顯示字符 說明 轉(zhuǎn)義字符
< 小于 <
空格
< 小于 <
> 大于 >
& &符號(hào) &
" 雙引號(hào) "
© 版權(quán) ©
® 已注冊(cè)商標(biāo) ®

Python 反轉(zhuǎn)義字符串

用 Python 來處理轉(zhuǎn)義字符串有多種方式,而且 py2 和 py3 中處理方式不一樣,在 python2 中,反轉(zhuǎn)義串的模塊是 HTMLParser。

# python2
import HTMLParser
>>> HTMLParser().unescape('a=1&b=2')
'a=1&b=2'

Python3 HTMLParser 模塊遷移到了 html.parser

# python3
>>> from html.parser import HTMLParser
>>> HTMLParser().unescape('a=1&b=2')
'a=1&b=2'

到 python3.4 以后的版本,在 html 模塊新增了 unescape 方法。

# python3.4
>>> import html
>>> html.unescape('a=1&b=2')
'a=1&b=2'

推薦最后一種寫法,因?yàn)?HTMLParser.unescape 方法在 Python3.4 就已經(jīng)被廢棄掉不推薦使用了,意味著之后的版本會(huì)被徹底移除。

另外,sax 模塊也有支持反轉(zhuǎn)義的函數(shù)

>>> from xml.sax.saxutils import unescape
>>> unescape('a=1&b=2')
'a=1&b=2'

當(dāng)然,你完全可以實(shí)現(xiàn)自己的反轉(zhuǎn)義功能,也不復(fù)雜,當(dāng)然,我們崇尚不重復(fù)造輪子。

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

最新評(píng)論