淺談Python爬取網(wǎng)頁的編碼處理
背景
中秋的時候,一個朋友給我發(fā)了一封郵件,說他在爬鏈家的時候,發(fā)現(xiàn)網(wǎng)頁返回的代碼都是亂碼,讓我?guī)退麉⒅\參謀(中秋加班,真是敬業(yè)= =!),其實這個問題我很早就遇到過,之前在爬小說的時候稍微看了一下,不過沒當回事,其實這個問題就是對編碼的理解不到位導致的。
問題
很普通的一個爬蟲代碼,代碼是這樣的:
# ecoding=utf-8 import re import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/' res = requests.get(url) print res.text
目的其實很簡單,就是爬一下鏈家的內容,但是這樣執(zhí)行之后,返回的結果,所有涉及到中文的內容,全部會變成亂碼,比如這樣
<script type="text/template" id="newAddHouseTpl"> <div class="newAddHouse"> 自从您上次æµè§ˆï¼ˆ<%=time%>)之åŽï¼Œè¯¥æœç´¢æ¡ä»¶ä¸‹æ–°å¢žåŠ äº†<%=count%>å¥—æˆ¿æº <a href="<%=url%>" class="LOGNEWERSHOUFANGSHOW" <%=logText%>><%=linkText%></a> <span class="newHouseRightClose">x</span> </div> </script>
這樣的數(shù)據(jù)拿來可以說毫無作用。
問題分析
這里的問題很明顯了,就是文字的編碼不正確,導致了亂碼。
查看網(wǎng)頁的編碼
從爬取的目標網(wǎng)頁的頭來看,網(wǎng)頁是用utf-8來編碼的。
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
所以,最終的編碼,我們肯定也要用utf-8來處理,也就是說,最終的文本處理,要用utf-8來解碼,也就是:decode('utf-8')
文本的編碼解碼
Python的編碼解碼的過程是這樣的,源文件 ===》 encode(編碼方式) ===》decode(解碼方式),在很大的程度上,不推薦使用
import sys reload(sys) sys.setdefaultencoding('utf8')
這種方式來硬處理文字編碼。不過在某些時候不影響的情況下,偷偷懶也不是什么大問題,不過比較建議的就是獲取源文件之后,使用encode和decode的方式來處理文本。
回到問題
現(xiàn)在問題最大的是源文件的編碼方式,我們正常使用requests的時候,它會自動猜源文件的編碼方式,然后轉碼成Unicode的編碼,但是,畢竟是程序,是有可能猜錯的,所以如果猜錯了,我們就需要手工來指定編碼方式。官方文檔的描述如下:
When you make a request, Requests makes educated guesses about the encoding of the response based on the HTTP headers. The text encoding guessed by Requests is used when you access r.text. You can find out what encoding Requests is using, and change it, using the r.encoding property.
所以我們需要查看requests返回的編碼方式到底是什么?
# ecoding=utf-8 import re import requests from bs4 import BeautifulSoup import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/' res = requests.get(url) print res.encoding
打印的結果如下:
ISO-8859-1
也就是說,源文件使用的是ISO-8859-1來編碼。百度一下ISO-8859-1,結果如下:
ISO8859-1,通常叫做Latin-1。Latin-1包括了書寫所有西方歐洲語言不可缺少的附加字符。
問題解決
發(fā)現(xiàn)了這個東東,問題就很好解決了,只要指定一下編碼,就能正確的打出中文了。代碼如下:
# ecoding=utf-8 import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/' res = requests.get(url) res.encoding = ('utf8') print res.text
打印的結果就很明顯,中文都正確的顯示出來了。
另一種方式是在源文件上做解碼和編碼,代碼如下:
# ecoding=utf-8 import requests import sys reload(sys) sys.setdefaultencoding('utf8') url = 'http://jb51.net/ershoufang/rs%E6%8B%9B%E5%95%86%E6%9E%9C%E5%B2%AD/' res = requests.get(url) # res.encoding = ('utf8') print res.text.encode('ISO-8859-1').decode('utf-8')
另:ISO-8859-1也叫做latin1,使用latin1做解碼結果也是正常的。
關于字符的編碼,很多東西可以說,想了解的朋友可以參考以下大神的資料。
以上這篇淺談Python爬取網(wǎng)頁的編碼處理就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
- 實例講解Python爬取網(wǎng)頁數(shù)據(jù)
- python爬蟲爬取網(wǎng)頁表格數(shù)據(jù)
- python動態(tài)網(wǎng)頁批量爬取
- Python爬取網(wǎng)頁中的圖片(搜狗圖片)詳解
- Python爬蟲爬取一個網(wǎng)頁上的圖片地址實例代碼
- Python下使用Scrapy爬取網(wǎng)頁內容的實例
- python爬取Ajax動態(tài)加載網(wǎng)頁過程解析
- 在Python中利用Pandas庫處理大數(shù)據(jù)的簡單介紹
- 淺談用Python實現(xiàn)一個大數(shù)據(jù)搜索引擎
- Python大數(shù)據(jù)之從網(wǎng)頁上爬取數(shù)據(jù)的方法詳解
相關文章
在Python中實現(xiàn)函數(shù)重載的示例代碼
這篇文章主要介紹了在Python中實現(xiàn)函數(shù)重載的示例代碼,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-12-12python cx_Oracle的基礎使用方法(連接和增刪改查)
這篇文章主要給大家介紹了關于python cx_Oracle的基礎使用方法,其中包括連接、增刪改查等基本操作,并給大家分享了python 連接Oracle 亂碼問題的解決方法,需要的朋友可以參考借鑒,下面隨著小編來一起學習學習吧。2017-11-11淺析python中while循環(huán)和for循環(huán)
在本篇文章里小編給各位整理的是關于python中while和for循環(huán)知識點詳解,有興趣的朋友們可以學習下。2019-11-11Python3.6通過自帶的urllib通過get或post方法請求url的實例
下面小編就為大家分享一篇Python3.6通過自帶的urllib通過get或post方法請求url的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05