解決Python網(wǎng)頁爬蟲之中文亂碼問題
Python是個好工具,但是也有其固有的一些缺點(diǎn)。最近在學(xué)習(xí)網(wǎng)頁爬蟲時就遇到了這樣一種問題,中文網(wǎng)站爬取下來的內(nèi)容往往中文顯示亂碼??催^我之前博客的同學(xué)可能知道,之前爬取的一個學(xué)校網(wǎng)頁就出現(xiàn)了這個問題,但是當(dāng)時并沒有解決,這著實(shí)成了我一個心病。這不,剛剛一解決就將這個方法公布與眾,大家一同分享。
首先,我說一下Python中文亂碼的原因,Python中文亂碼是由于Python在解析網(wǎng)頁時默認(rèn)用Unicode去解析,而大多數(shù)網(wǎng)站是utf-8格式的,并且解析出來之后,python竟然再以Unicode字符格式輸出,會與系統(tǒng)編碼格式不同,導(dǎo)致中文輸出亂碼,知道原因后我們就好解決了。下面上代碼,實(shí)驗(yàn)對象仍是被人上了無數(shù)遍的百度主頁~
# -*- coding: utf-8 -*- import urllib2 import re import requests import sys import urllib #設(shè)置編碼 reload(sys) sys.setdefaultencoding('utf-8') #獲得系統(tǒng)編碼格式 type = sys.getfilesystemencoding() r = urllib.urlopen("http://www.baidu.com") #將網(wǎng)頁以utf-8格式解析然后轉(zhuǎn)換為系統(tǒng)默認(rèn)格式 a = r.read().decode('utf-8').encode(type) print a
最后輸出效果,中文完美輸出
以上這篇解決Python網(wǎng)頁爬蟲之中文亂碼問題就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
selenium+unittest實(shí)現(xiàn)web自動化的示例代碼
本文主要介紹了selenium+unittest實(shí)現(xiàn)web自動化的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03Python?Selenium無法打開Chrome瀏覽器處理自定義瀏覽器路徑的問題及解決方法
Python?Selenium控制Chrome瀏覽器的過程中,由于安裝的Chrome瀏覽器的版本找不到對應(yīng)版本的驅(qū)動chromedriver.exe文件,下載了小幾個版本號的驅(qū)動軟件都無法正常使用,下面通過本文介紹Python?Selenium無法打開Chrome瀏覽器處理自定義瀏覽器路徑的問題,需要的朋友可以參考下2024-08-08