詳解用Python處理HTML轉(zhuǎn)義字符的5種方式
寫爬蟲是一個(gè)發(fā)送請(qǐng)求,提取數(shù)據(jù),清洗數(shù)據(jù),存儲(chǔ)數(shù)據(jù)的過程。在這個(gè)過程中,不同的數(shù)據(jù)源返回的數(shù)據(jù)格式各不相同,有 JSON 格式,有 XML 文檔,不過大部分還是 HTML 文檔,HTML 經(jīng)常會(huì)混雜有轉(zhuǎn)移字符,這些字符我們需要把它轉(zhuǎn)義成真正的字符。
什么是轉(zhuǎn)義字符
在 HTML 中 <、>、& 等字符有特殊含義(<,> 用于標(biāo)簽中,& 用于轉(zhuǎn)義),他們不能在 HTML 代碼中直接使用,如果要在網(wǎng)頁中顯示這些符號(hào),就需要使用 HTML 的轉(zhuǎn)義字符串(Escape Sequence),例如 < 的轉(zhuǎn)義字符是 <,瀏覽器渲染 HTML 頁面時(shí),會(huì)自動(dòng)把轉(zhuǎn)移字符串換成真實(shí)字符。
轉(zhuǎn)義字符(Escape Sequence)由三部分組成:第一部分是一個(gè) & 符號(hào),第二部分是實(shí)體(Entity)名字,第三部分是一個(gè)分號(hào)。 比如,要顯示小于號(hào)(<),就可以寫< 。
顯示字符 | 說明 | 轉(zhuǎn)義字符 |
---|---|---|
< | 小于 | < |
空格 | ||
< | 小于 | < |
> | 大于 | > |
& | &符號(hào) | & |
" | 雙引號(hào) | " |
© | 版權(quán) | © |
® | 已注冊(cè)商標(biāo) | ® |
Python 反轉(zhuǎn)義字符串
用 Python 來處理轉(zhuǎn)義字符串有多種方式,而且 py2 和 py3 中處理方式不一樣,在 python2 中,反轉(zhuǎn)義串的模塊是 HTMLParser。
# python2 import HTMLParser >>> HTMLParser().unescape('a=1&b=2') 'a=1&b=2'
Python3 HTMLParser 模塊遷移到了 html.parser
# python3 >>> from html.parser import HTMLParser >>> HTMLParser().unescape('a=1&b=2') 'a=1&b=2'
到 python3.4 以后的版本,在 html 模塊新增了 unescape 方法。
# python3.4 >>> import html >>> html.unescape('a=1&b=2') 'a=1&b=2'
推薦最后一種寫法,因?yàn)?HTMLParser.unescape 方法在 Python3.4 就已經(jīng)被廢棄掉不推薦使用了,意味著之后的版本會(huì)被徹底移除。
另外,sax 模塊也有支持反轉(zhuǎn)義的函數(shù)
>>> from xml.sax.saxutils import unescape >>> unescape('a=1&b=2') 'a=1&b=2'
當(dāng)然,你完全可以實(shí)現(xiàn)自己的反轉(zhuǎn)義功能,也不復(fù)雜,當(dāng)然,我們崇尚不重復(fù)造輪子。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Matplotlib使用字符串代替變量繪制散點(diǎn)圖的方法
這篇文章主要介紹了Matplotlib使用字符串代替變量繪制散點(diǎn)圖的方法,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02如何利用python的tkinter實(shí)現(xiàn)一個(gè)簡(jiǎn)單的計(jì)算器
這篇文章主要給大家介紹了關(guān)于如何利用python的tkinter實(shí)現(xiàn)一個(gè)簡(jiǎn)單的計(jì)算器的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04Django-xadmin后臺(tái)導(dǎo)入json數(shù)據(jù)及后臺(tái)顯示信息圖標(biāo)和主題更改方式
這篇文章主要介紹了Django-xadmin后臺(tái)導(dǎo)入json數(shù)據(jù)及后臺(tái)顯示信息圖標(biāo)和主題更改方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-03-03python3 實(shí)現(xiàn)驗(yàn)證碼圖片切割的方法
今天小編就為大家分享一篇python3 實(shí)現(xiàn)驗(yàn)證碼圖片切割的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-12-12springboot aop方式實(shí)現(xiàn)接口入?yún)⑿r?yàn)的示例代碼
在實(shí)際開發(fā)項(xiàng)目中,我們常常需要對(duì)接口入?yún)⑦M(jìn)行校驗(yàn),本文主要介紹了springboot aop方式實(shí)現(xiàn)接口入?yún)⑿r?yàn)的示例代碼,具有一定的參考價(jià)值,感興趣的可以了解一下2023-08-08Python實(shí)現(xiàn)如何根據(jù)文件后綴進(jìn)行分類
本文主要為大家詳細(xì)介紹了如何通過python實(shí)現(xiàn)根據(jù)文件后綴實(shí)現(xiàn)分類,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以關(guān)注一下2021-12-12python 實(shí)現(xiàn)簡(jiǎn)易的記事本
這篇文章主要介紹了python 實(shí)現(xiàn)簡(jiǎn)易的記事本的示例代碼,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下2020-11-11Python 解決空列表.append() 輸出為None的問題
在本篇文章里小編給大家整理了一篇關(guān)于Python 解決空列表.append() 輸出為None的問題的相關(guān)內(nèi)容,有興趣的朋友們可以學(xué)習(xí)下。2021-05-05