快捷導(dǎo)航

python中urllib.unquote亂碼的原因與解決方法

更新時(shí)間：2017年04月24日 10:42:29 作者：FOOFISH

這篇文章主要給大家介紹了python中urllib.unquote亂碼的原因與解決方法，文中介紹的非常詳細(xì)，對(duì)大家具有一定的參考價(jià)值，需要的朋友可以參考學(xué)習(xí)，下面跟著小編一起來學(xué)習(xí)學(xué)習(xí)吧。

發(fā)現(xiàn)問題

Python中的urllib模塊用來處理url相關(guān)的操作，unquote方法對(duì)應(yīng)javascript中的urldecode方法，它對(duì)url進(jìn)行解碼，把類似"%xx"的字符替換成單個(gè)字符，例如：“%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92”解碼后會(huì)轉(zhuǎn)換成“法國紅酒”，但是使用過程中，如果姿勢(shì)不對(duì)，最終轉(zhuǎn)換出來的字符會(huì)是亂碼“æ³•å›½çº¢é…”。

筆者在一個(gè)真實(shí)的Tornado應(yīng)用中就遇到了這樣的問題，瀏覽器通過請(qǐng)求傳遞到后臺(tái)后，獲取參數(shù)的值后：

name = self.get_argument("name", "")
name = urllib.unquote(name)
# save to db

name的值打印出來的顯示的是：“%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92”，看起來沒什么問題，但結(jié)果最終保存到數(shù)據(jù)庫中的時(shí)候就成了一串亂碼“æ³•å›½çº¢é…”，這個(gè)問題實(shí)在是讓人百思不得其解。

原因分析

于是想用直接編碼的字符來處理看看是否會(huì)出現(xiàn)亂碼：

name = '%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92'
name = urllib.unquote(name)
# save to db

發(fā)現(xiàn)這種方式處理沒有任何問題，name的值解碼之后就是“法國紅酒”，經(jīng)過一番思考，原因只可能是出在self.get_argument("name")這處代碼段了。原來，get_argument默認(rèn)返回的是值的類型是unicode，而unquote方法處理unicode類型的字符時(shí)，直接返回的就是：

u'\xe6\xb3\x95\xe5\x9b\xbd\xe7\xba\xa2\xe9\x85\x92'

注意：這里返回的值類型是unicode，也就是說unquote方法接收參數(shù)類型是unidoe，返回的值類型也是unicode，只不過是把"%"替換成了'\x'，最終由：

u"%E6%B3%95%E5%9B%BD%E7%BA%A2%E9%85%92"

替換為了：

u"\xe6\xb3\x95\xe5\x9b\xbd\xe7\xba\xa2\xe9\x85\x92"

而u"\xe6\xb3\x95\xe5\x9b\xbd\xe7\xba\xa2\xe9\x85\x92"完全就是一個(gè)ascii碼字符串，只不過是用16進(jìn)制表示的，我們?cè)賮砜纯?e6','b3'....分別對(duì)應(yīng)ascii中的什么字符。你可以參考網(wǎng)址：http://www.ascii-code.com，'e6'是一個(gè)擴(kuò)展的ascii字符，在128-255區(qū)間范圍內(nèi)，他對(duì)應(yīng)的符號(hào)就是'æ'

DEC OCT HEX BIN Symbol 
230 346 E6 11100110 æ

現(xiàn)在你應(yīng)該明白為什么會(huì)生成亂碼字符：

æ³•å›½çº¢é

解決辦法

在調(diào)用self.get_argument('name')方法之后，把返回的值轉(zhuǎn)換成str類型：

name = self.get_argument("name", "")
name = str(name)
name = urllib.unquote(name)
# save to db

轉(zhuǎn)換稱str類型的字符串之后，相當(dāng)于調(diào)用：

'\xe6\xb3\x95\xe5\x9b\xbd\xe7\xba\xa2\xe9\x85\x92'.decode("utf-8")

>>> u'\u6cd5\u56fd\u7ea2\u9152'

總結(jié)

以上就是這篇文章的全部內(nèi)容了，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者使用python能帶來一定的幫助，如果有疑問大家可以留言交流，謝謝大家對(duì)腳本之家的支持。

您可能感興趣的文章:

亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

python中urllib.unquote亂碼的原因與解決方法

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具