Python標(biāo)準(zhǔn)庫之urllib和urllib3的使用及說明
一、urllib
urllib是Python中請求url連接的官方標(biāo)準(zhǔn)庫,在Python2中主要為urllib和urllib2,在Python3中整合成了urllib。
urllib中一共有四個(gè)模塊,分別如下:
request
:主要負(fù)責(zé)構(gòu)造和發(fā)起網(wǎng)絡(luò)請求,定義了適用于在各種復(fù)雜情況下打開 URL (主要為 HTTP) 的函數(shù)和類error
:處理異常parse
:解析各種數(shù)據(jù)格式robotparser
:解析robot.txt文件
1. urllib.request模塊
模塊中最常用的函數(shù)為urllib.request.urlopen(),參數(shù)如下:
urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None)
url
: 請求的網(wǎng)址data
:要發(fā)送到服務(wù)器的數(shù)據(jù)timeout
:設(shè)置網(wǎng)站的訪問超時(shí)時(shí)間
urlopen返回對象提供方法:
read()
,readline()
,readlines()
,fileno()
,close()
:對HTTPResponse類型數(shù)據(jù)進(jìn)行操作info()
:返回HTTPMessage對象,表示遠(yuǎn)程服務(wù)器返回的頭信息getcode()
:返回Http狀態(tài)碼。如果是http請求,200請求成功完成 ; 404網(wǎng)址未找到geturl()
:返回請求的url
(1)發(fā)送簡單的GET請求:
from urllib import request ? response = request.urlopen('https://www.baidu.com') print(response.read().decode())
在urlopen()方法中,直接寫入要訪問的url地址字符串,該方法就會主動(dòng)的訪問目標(biāo)網(wǎng)址,然后返回訪問結(jié)果,返回的訪問結(jié)果是一個(gè) http.client.HTTPResponse對象,使用該對象的read()方法即可獲取訪問網(wǎng)頁獲取的數(shù)據(jù),這個(gè)數(shù)據(jù)是二進(jìn)制格式的,所以我們還需要使用decode()方法來將獲取的二進(jìn)制數(shù)據(jù)進(jìn)行解碼,轉(zhuǎn)換成我們可以看的懂得字符串。
(2)發(fā)送簡單的POST請求:
from urllib import reuqest ? response = request.urlopen('http://httpbin.org/post', data=b'word=hello') ? print(response.read().decode()) ? #decode()解碼
在urlopen()方法中,urlopen()默認(rèn)的訪問方式是GET,當(dāng)在urlopen()方法中傳入data參數(shù)時(shí),則會發(fā)起POST請求。注意:傳遞的data數(shù)據(jù)需要為bytes格式
(3)復(fù)雜的請求——請求頭
當(dāng)我們需要模擬一些其他的參數(shù)的時(shí)候,簡單的urlopen() 方法已經(jīng)無法滿足我們的需求了,這個(gè)時(shí)候我們就需要使用urllib.request中的Request對象來幫助我們實(shí)現(xiàn)一些其它參數(shù)的模擬,比如請求頭。
Request對象如下所示:
# Request對象實(shí)例化 req ?= urllib.request.Request(url, data=None, headers={},origin_req_host=None,unverifiable=False, method=None)
舉例如下:
? from urllib import request ?? ? url = 'http://httpbin.org/get' ? headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_5) \ AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.181 Safari/537.36'} ?? ? # 需要使用url和headers生成一個(gè)Request對象,然后將其傳入urlopen方法中 ? req = request.Request(url, headers=headers) ? resp = request.urlopen(req) ? print(resp.read().decode())
(4)復(fù)雜的請求—代理IP
使用爬蟲來爬取數(shù)據(jù)的時(shí)候,如果過于頻繁的訪問,而且網(wǎng)站還設(shè)有限制的話,很有可能會禁封我們的ip地址,這個(gè)時(shí)候就需要設(shè)置代理,來隱藏我們的真實(shí)IP。
代理IP的原理:以本機(jī)先訪問代理IP,再通過代理IP地址訪問服務(wù)器,這樣服務(wù)器接受到的訪問IP就是代理IP地址。
urllib提供了urllib.request.ProxyHandler()方法可動(dòng)態(tài)的設(shè)置代理IP池。將代理IP以字典形式傳入該方法,然后通過urllib.reques.build_opener()創(chuàng)建opener對象,用該對象的open()方法向服務(wù)器發(fā)送請求。
?from urllib import request ?? ? url = 'http://httpbin.org/ip' ? proxy = {'http': '218.18.232.26:80', 'https': '218.18.232.26:80'} ? proxies = request.ProxyHandler(proxy) ?# 創(chuàng)建代理處理器 ? opener = request.build_opener(proxies) ?# 創(chuàng)建opener對象 ?? ? resp = opener.open(url) ? print(resp.read().decode())
在上述的方法中我們還用到了一個(gè)新的東西,即request.build_opener()方法,其實(shí)urlopen()就是通過構(gòu)造好了的opener對象發(fā)送請求,在這里我們使用request.build_opener()方法重構(gòu)了一個(gè)opener()對象,我們可以通過這個(gè)對象實(shí)現(xiàn)urlopen()實(shí)現(xiàn)的任何東西。
(5)復(fù)雜的請求—cookies
有時(shí)候當(dāng)我們訪問一些網(wǎng)站的時(shí)候需要進(jìn)行翻頁或者跳轉(zhuǎn)等其它操作,為了防止無法訪問我們想要的數(shù)據(jù),需要讓網(wǎng)站識別我們是同一個(gè)用戶。這個(gè)時(shí)候我們就需要帶上cookie進(jìn)行訪問。
在設(shè)置cookie的時(shí)候由于urllib并沒有很好的處理cookie的對象,所以在這里我們需要用到一個(gè)別的庫,即http庫,并使用里面的cookiejar來進(jìn)行cookie的管理:
from http import cookiejar from urllib import request ?? url = 'https://www.baidu.com' # 創(chuàng)建一個(gè)cookiejar對象 cookie = cookiejar.CookieJar() # 使用HTTPCookieProcessor創(chuàng)建cookie處理器 cookies = request.HTTPCookieProcessor(cookie) # 并以它為參數(shù)創(chuàng)建Opener對象 opener = request.build_opener(cookies) # 使用這個(gè)opener來發(fā)起請求 resp = opener.open(url) ?? # 查看之前的cookie對象,則可以看到訪問百度獲得的cookie for i in cookie: ? ? print(i)
當(dāng)然,如果把上面這個(gè)生成的opener對象使用install_opener方法來設(shè)置為全局的,opener對象之后的每次訪問都會帶上這個(gè)cookie。
設(shè)置全局后既可以用urlopen()方法, 也可以用opener.open() ,不安裝的話只能用opener.open()方法
# 將這個(gè)opener設(shè)置為全局的opener,之后所有的,不管是opener.open()還是urlopen() 發(fā)送請求,都將使用自定義 request.install_opener(opener) resp = request.urlopen(url)
(6)復(fù)雜的請求—證書驗(yàn)證
CA(Certificate Authority)是數(shù)字證書認(rèn)證中心的簡稱,是指發(fā)放、管理、廢除數(shù)字證書的受信任的第三方機(jī)構(gòu)。
CA的作用是檢查證書持有者身份的合法性,并簽發(fā)證書,以防證書被偽造或篡改,以及對證書和密鑰進(jìn)行管理。
現(xiàn)實(shí)生活中可以用身份證來證明身份, 那么在網(wǎng)絡(luò)世界里,數(shù)字證書就是身份證。
和現(xiàn)實(shí)生活不同的是,并不是每個(gè)上網(wǎng)的用戶都有數(shù)字證書的,往往只有當(dāng)一個(gè)人需要證明自己的身份的時(shí)候才需要用到數(shù)字證書。
普通用戶一般是不需要,因?yàn)榫W(wǎng)站并不關(guān)心是誰訪問了網(wǎng)站,現(xiàn)在的網(wǎng)站只關(guān)心流量。
但是反過來,網(wǎng)站就需要證明自己的身份了。比如說現(xiàn)在釣魚網(wǎng)站很多的,比如你想訪問的是www.baidu.com,但其實(shí)你訪問的是www.daibu.com”,所以在提交自己的隱私信息之前需要驗(yàn)證一下網(wǎng)站的身份,要求網(wǎng)站出示數(shù)字證書。
一般正常的網(wǎng)站都會主動(dòng)出示自己的數(shù)字證書,來確??蛻舳撕途W(wǎng)站服務(wù)器之間的通信數(shù)據(jù)是加密安全的。
最簡單的方法就是通過添加忽略ssl證書驗(yàn)證關(guān)閉證書驗(yàn)證,由于urllib并沒有很好的處理ssl的對象,所以在這里我們需要用到一個(gè)別的庫,即ssl庫,如下:
import ssl from urllib import request ? context = ssl._create_unverified_context() res = urllib.request.urlopen(request, context=context)
2. urllib.error 模塊
在urllib中主要設(shè)置了兩個(gè)異常,一個(gè)是URLError,一個(gè)是HTTPError,HTTPError是URLError的子類。
HTTPError還包含了三個(gè)屬性:
code
:請求的狀態(tài)碼reason
:錯(cuò)誤的原因headers
:響應(yīng)的報(bào)頭
from urllib.error import HTTPError ? try: ? ? request.urlopen('https://www.jianshu.com') except HTTPError as e: ? ? print(e.code)
3.urllib.parse 模塊
data參數(shù)需要用urllib.parse模塊對其進(jìn)行數(shù)據(jù)格式處理。
urllib.parse.quote(url)
:(URL編碼處理)主要對URL中的非ASCII碼編碼處理urllib.parse.unquote(url)
:(URL解碼處理)URL上的特殊字符還原urllib.parse.urlencode
:對請求數(shù)據(jù)data進(jìn)行格式轉(zhuǎn)換
二、urllib3
來自官方網(wǎng)站的解釋
urllib3是一個(gè)功能強(qiáng)大,對SAP 健全的 HTTP客戶端。許多Python生態(tài)系統(tǒng)已經(jīng)使用了urllib3,你也應(yīng)該這樣做。
通過urllib3訪問一個(gè)網(wǎng)頁,那么必須首先構(gòu)造一個(gè)PoolManager對象,然后通過PoolMagent中的request方法或者 urlopen()方法來訪問一個(gè)網(wǎng)頁,兩者幾乎沒有任何區(qū)別。
class urllib3.poolmanager.PoolManager(num_pools = 10,headers = None,** connection_pool_kw )
生成一個(gè)PoolManager所需要的參數(shù):
num_pools
代表了緩存的池的個(gè)數(shù),如果訪問的個(gè)數(shù)大于num_pools,將按順序丟棄最初始的緩存,將緩存的個(gè)數(shù)維持在池的大小。headers
代表了請求頭的信息,如果在初始化PoolManager的時(shí)候制定了headers,那么之后每次使用PoolManager來進(jìn)行訪問的時(shí)候,都將使用該headers來進(jìn)行訪問。** connection_pool_kw
是基于connection_pool 來生成的其它設(shè)置
當(dāng)訪問網(wǎng)頁完成之后,將會返回一個(gè)HTTPResponse對象,可以通過如下的方法來讀取獲取GET請求的響應(yīng)內(nèi)容:
import urllib3 ? http = urllib3.PoolManager(num_pools=5, headers={'User-Agent': 'ABCDE'}) ? resp1 = http.request('GET', 'http://www.baidu.com', body=data) # resp2 = http.urlopen('GET', 'http://www.baidu.com', body=data) ? print(resp2.data.decode())
除了普通的 GET 請求之外,你還可以使用request()或者urlopen()進(jìn)行 POST 請求:
import urllib3 import json ? data = json.dumps({'abc': '123'}) http = urllib3.PoolManager(num_pools=5, headers={'User-Agent': 'ABCDE'}) ? resp1 = http.request('POST', 'http://www.httpbin.org/post', body=data,timeout=5,retries=5) #resp2 = http.urlopen('POST', 'http://www.httpbin.org/post', body=data,timeout=5,retries=5) ? print(resp1.data.decode())
注意事項(xiàng)
urllib3 并沒有辦法單獨(dú)設(shè)置cookie,所以如果你想使用cookie的話,可以將cookie放入到headers中
request()和urlopen()方法
request(self, method, url, fields=None, headers=None, **urlopen_kw)? urlopen(self, method, url, redirect=True, **kw):
差距還是很明顯的,urlopen()比request()有三個(gè)參數(shù)是不一樣的,你會發(fā)現(xiàn)request()具有fields,headers兩個(gè)參數(shù)。而且相比之下 reuqest() 方法還是比較符合人們的使用方式的,所以更多的也就使用 request() 方法了。
推薦使用request()來進(jìn)行訪問的,因?yàn)槭褂胷equest()來進(jìn)行訪問有兩點(diǎn)好處,
- 可以直接進(jìn)行post請求,不需要將 data參數(shù)轉(zhuǎn)換成JSON格式
- 直接進(jìn)行GET請求,不需要自己拼接url參數(shù)
import urllib3 import json ? data = {'abc': '123'} http = urllib3.PoolManager(num_pools=5, headers={'User-Agent': 'ABCDE'}) ? resp1 = http.request('POST', 'http://www.httpbin.org/post', fields=data) # resp1 = http.request('GET', 'http://www.httpbin.org/post', fields=data) ? ? print(resp1.data.decode())
雖然urlopen()沒有fields,但這并不代表它不能進(jìn)行POST訪問,相反,兩個(gè)方法都有一個(gè)body屬性,這個(gè)屬性就是我們平時(shí)POST請求時(shí)所熟知的data參數(shù),只不過你需要將data字典先轉(zhuǎn)換成JSON格式再進(jìn)行傳輸。
不過特別要聲明的一點(diǎn)是 fielder 和 body 中只能存在一個(gè)。
urllib3 ProxyManager
如果你需要使用代理來訪問某個(gè)網(wǎng)站的話, 那么你可以使用 ProxyManager 對象來進(jìn)行設(shè)置
def __init__(self, proxy_url, num_pools=10, headers=None,proxy_headers=None, **connection_pool_kw):
ProxyManager和PoolManager的方法基本完全相同,這里舉個(gè)簡單的小例子,就不再贅述了:
import urllib3 import json ? data = {'abc': '123'} proxy = urllib3.ProxyManager('http://50.233.137.33:80', headers={'connection': 'keep-alive'}) resp1 = proxy.request('POST', 'http://www.httpbin.org/post', fields=data) print(resp1.data.decode())
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
python實(shí)戰(zhàn)之百度智能云使人像動(dòng)漫化
這篇文章主要介紹了python實(shí)戰(zhàn)之百度智能云使人像動(dòng)漫化,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python的小伙伴們有很好地幫助,需要的朋友可以參考下2021-04-04Python ATM功能實(shí)現(xiàn)代碼實(shí)例
這篇文章主要介紹了Python ATM功能實(shí)現(xiàn)代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-03-03在pycharm中關(guān)掉ipython console/PyDev操作
這篇文章主要介紹了在pycharm中關(guān)掉ipython console/PyDev操作,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06Python使用pyyaml模塊處理yaml數(shù)據(jù)
這篇文章主要介紹了Python使用pyyaml模塊處理yaml數(shù)據(jù),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-04-04解決Pytorch 加載訓(xùn)練好的模型 遇到的error問題
今天小編就為大家分享一篇解決Pytorch 加載訓(xùn)練好的模型 遇到的error問題,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01用sqlalchemy構(gòu)建Django連接池的實(shí)例
今天小編就為大家分享一篇用sqlalchemy構(gòu)建Django連接池的實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08python常見進(jìn)制轉(zhuǎn)換方法示例代碼
Python為我們提供了強(qiáng)大的內(nèi)置函數(shù)和格式化數(shù)字的方法去實(shí)現(xiàn)進(jìn)制轉(zhuǎn)換的功能,下面這篇文章主要給大家介紹了關(guān)于python常見進(jìn)制轉(zhuǎn)換方法的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下2023-05-05Python使用functools模塊中的partial函數(shù)生成偏函數(shù)
所謂偏函數(shù)即是規(guī)定了固定參數(shù)的函數(shù),在函數(shù)式編程中我們經(jīng)??梢杂玫?這里我們就來看一下Python使用functools模塊中的partial函數(shù)生成偏函數(shù)的方法2016-07-07django利用request id便于定位及給日志加上request_id
這篇文章主要介紹了django利用request id便于定位及給日志加上request_id的相關(guān)資料,文中通過示例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用django具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來一起看看吧2018-08-08