python3使用urllib模塊制作網(wǎng)絡(luò)爬蟲
urllib
urllib模塊是python3的URL處理包
其中:
1、urllib.request主要是打開和閱讀urls
個(gè)人平時(shí)主要用的1:
打開對(duì)應(yīng)的URL:urllib.request.open(url)
用urllib.request.build_opener([handler, ...]),來(lái)偽裝成對(duì)應(yīng)的瀏覽器
import urllib #要偽裝成的瀏覽器(我這個(gè)是用的chrome) headers = ('User-Agent','Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36') url='http://hotels.ctrip.com/' opener = urllib.request.build_opener() #將要偽裝成的瀏覽器添加到對(duì)應(yīng)的http頭部 opener.addheaders=[headers] #讀取相應(yīng)的url data = opener.open(url).read() #將獲得的html解碼為utf-8 data=data.decode('utf-8') print(data)
2、urllib.parse主要是用來(lái)解析url
主要方法:
urllib.parse.urlparse(urlstring)
功能:將對(duì)應(yīng)的URL解析成六部分,并以元組的數(shù)據(jù)格式返回來(lái)。(在功能上和urlsplit()幾乎一模一樣)
import urllib o = urllib.parse.urlparse('http://www.cwi.nl:80/%7Eguido/Python.html') print(o) print(o.path) print(o.scheme) print(o.port) print(o.geturl())
對(duì)應(yīng)的結(jié)果:
ParseResult(scheme='http', netloc='www.cwi.nl:80', path='/%7Eguido/Python.html', params='', query='', fragment='')
/%7Eguido/Python.html
http
80
http://www.cwi.nl:80/%7Eguido/Python.html
2、構(gòu)建一個(gè)新的url——urllib.parse.urljoin(base, url)
參數(shù):base:基本的URL鏈接
url:另一個(gè)url
from urllib.parse import urljoin a=urljoin('http://www.cwi.nl/%7Eguido/Python.html', 'FAQ.html') print(a)
結(jié)果:http://www.cwi.nl/%7Eguido/FAQ.html
這個(gè)函數(shù)在爬蟲的時(shí)候應(yīng)該方便多了,我之前用的是比較笨的方法直接字符串拼接
3、異常處理 urllib.error
用 try-except來(lái)捕捉異常
主要的錯(cuò)誤方式就兩種 URLError和HTTPError
因?yàn)镠TTPError是URLError的子類,所以URLError應(yīng)該寫在HttpError后面,說(shuō)白了就是找到兒子一定知道父親,找到父親,不一定知道兒子。
try: data=urllib.request.urlopen(url) print(data.read().decode('utf-8')) except urllib.error.HTTPError as e: print(e.code) except urllib.error.URLError as e: print(e.reason)
結(jié)果:[WinError 10060] 由于連接方在一段時(shí)間后沒(méi)有正確答復(fù)或連接的主機(jī)沒(méi)有反應(yīng),連接嘗試失敗。
如果捕獲到了HTTPError,則輸出code,不會(huì)再處理URLError異常。如果發(fā)生的不是HTTPError,則會(huì)去捕獲URLError異常,輸出錯(cuò)誤原因
- Python爬蟲之urllib基礎(chǔ)用法教程
- Python爬蟲 urllib2的使用方法詳解
- python urllib爬蟲模塊使用解析
- python爬蟲 urllib模塊發(fā)起post請(qǐng)求過(guò)程解析
- python爬蟲 urllib模塊url編碼處理詳解
- python爬蟲 urllib模塊反爬蟲機(jī)制UA詳解
- 用python3 urllib破解有道翻譯反爬蟲機(jī)制詳解
- 詳解Python3網(wǎng)絡(luò)爬蟲(二):利用urllib.urlopen向有道翻譯發(fā)送數(shù)據(jù)獲得翻譯結(jié)果
- Python3爬蟲之urllib攜帶cookie爬取網(wǎng)頁(yè)的方法
- python爬蟲之urllib,偽裝,超時(shí)設(shè)置,異常處理的方法
- python爬蟲之urllib庫(kù)常用方法用法總結(jié)大全
- python爬蟲之urllib3的使用示例
- Python爬蟲中urllib庫(kù)的進(jìn)階學(xué)習(xí)
- python利用urllib實(shí)現(xiàn)爬取京東網(wǎng)站商品圖片的爬蟲實(shí)例
- Python中使用urllib2模塊編寫爬蟲的簡(jiǎn)單上手示例
- Python中urllib+urllib2+cookielib模塊編寫爬蟲實(shí)戰(zhàn)
- 使用Python的urllib和urllib2模塊制作爬蟲的實(shí)例教程
- python爬蟲開發(fā)之urllib模塊詳細(xì)使用方法與實(shí)例全解
相關(guān)文章
基礎(chǔ)語(yǔ)音識(shí)別-食物語(yǔ)音識(shí)別baseline(CNN)
這篇文章主要介紹了一個(gè)基礎(chǔ)語(yǔ)音識(shí)別題目-食物語(yǔ)音識(shí)別baseline(CNN),代碼詳細(xì)嗎,對(duì)于想要學(xué)習(xí)語(yǔ)音識(shí)別的朋友可以參考下2021-04-04anaconda?navigator打不開問(wèn)題的解決方法
在使用python的發(fā)行版anaconda時(shí),常常需要根據(jù)自己的項(xiàng)目安裝新的庫(kù),下面這篇文章主要給大家介紹了關(guān)于anaconda?navigator打不開問(wèn)題的解決方法,需要的朋友可以參考下2022-12-12在Python中操作文件之truncate()方法的使用教程
這篇文章主要介紹了在Python中操作文件之truncate()方法的使用教程,是Python入門學(xué)習(xí)中的基礎(chǔ)知識(shí),需要的朋友可以參考下2015-05-05Python opencv醫(yī)學(xué)處理的實(shí)現(xiàn)過(guò)程
這篇文章主要介紹了Python opencv醫(yī)學(xué)處理的實(shí)現(xiàn)過(guò)程,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-05-05python腳本實(shí)現(xiàn)xls(xlsx)轉(zhuǎn)成csv
這篇文章主要介紹了python腳本實(shí)現(xiàn)xls(xlsx)轉(zhuǎn)成csv的相關(guān)資料,需要的朋友可以參考下2016-04-04