快捷導(dǎo)航

python爬蟲利器之requests庫的用法(超全面的爬取網(wǎng)頁案例)

更新時間：2020年12月17日 14:33:25 作者：黎明之道

這篇文章主要介紹了python爬蟲利器之requests庫的用法(超全面的爬取網(wǎng)頁案例),本文通過實(shí)例代碼給大家介紹的非常詳細(xì)，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下

requests庫

利用pip安裝:
pip install requests

基本請求

req = requests.get("https://www.baidu.com/")
req = requests.post("https://www.baidu.com/")
req = requests.put("https://www.baidu.com/")
req = requests.delete("https://www.baidu.com/")
req = requests.head("https://www.baidu.com/")
req = requests.options(https://www.baidu.com/)

1.get請求

參數(shù)是字典，我們可以傳遞json類型的參數(shù)：

import requests
from fake_useragent import UserAgent#請求頭部庫
headers = {"User-Agent":UserAgent().random}#獲取一個隨機(jī)的請求頭
url = "https://www.baidu.com/s"#網(wǎng)址
params={
  "wd":"豆瓣"  #網(wǎng)址的后綴
}

requests.get(url,headers=headers,params=params)

在這里插入圖片描述

返回了狀態(tài)碼，所以我們要想獲取內(nèi)容，需要將其轉(zhuǎn)成text：

#get請求

headers = {"User-Agent":UserAgent().random}
url = "https://www.baidu.com/s"
params={
  "wd":"豆瓣"
}

response = requests.get(url,headers=headers,params=params)
response.text

2.post 請求

參數(shù)也是字典，也可以傳遞json類型的參數(shù)：

import requests 
from fake_useragent import UserAgent

headers = {"User-Agent":UserAgent().random}

url = "https://www.baidu.cn/index/login/login" #登錄賬號密碼的網(wǎng)址
params = {
  "user":"1351351335",#賬號
  "password":"123456"#密碼
}

response = requests.post(url,headers=headers,data=params)
response.text

在這里插入圖片描述

因?yàn)檫@里需要一個登錄的網(wǎng)頁，我這里就隨便用了一個，沒有登錄，所以顯示的結(jié)果是這樣的，如果想要測試登錄的效果，請找一個登錄的頁面去嘗試一下。

3.IP代理

采集時為避免被封IP，經(jīng)常會使用代理，requests也有相應(yīng) 的proxies屬性。

#IP代理

import requests 
from fake_useragent import UserAgent

headers = {"User-Agent":UserAgent().random}
url = "http://httpbin.org/get" #返回當(dāng)前IP的網(wǎng)址

proxies = {
  "http":"http://yonghuming:123456@192.168.1.1:8088"#http://用戶名:密碼@IP:端口號
  #"http":"https://182.145.31.211:4224"# 或者IP：端口號
}

requests.get(url,headers=headers,proxies=proxies)

代理IP可以去：快代理去找，也可以去購買。
http://httpbin.org/get。這個網(wǎng)址是查看你現(xiàn)在的信息：

在這里插入圖片描述

4.設(shè)置訪問超時時間

可以通過timeout屬性設(shè)置超時時間，一旦超過這個時間還沒獲取到響應(yīng)內(nèi)容，就會提示錯誤。

#設(shè)置訪問時間
requests.get("http://baidu.com/",timeout=0.1)

在這里插入圖片描述

5.證書問題(SSLError:HTTP)

ssl驗(yàn)證。

import requests 
from fake_useragent import UserAgent #請求頭部庫

url = "https://www.12306.cn/index/" #需要證書的網(wǎng)頁地址
headers = {"User-Agent":UserAgent().random}#獲取一個隨機(jī)請求頭

requests.packages.urllib3.disable_warnings()#禁用安全警告
response = requests.get(url,verify=False,headers=headers)
response.encoding = "utf-8" #用來顯示中文，進(jìn)行轉(zhuǎn)碼
response.text

在這里插入圖片描述

6.session自動保存cookies

import requests
from fake_useragent import UserAgent

headers = {"User-Agent":UserAgent().chrome}
login_url = "https://www.baidu.cn/index/login/login" #需要登錄的網(wǎng)頁地址
params = {
  "user":"yonghuming",#用戶名
  "password":"123456"#密碼
}
session = requests.Session() #用來保存cookie

#直接用session 歹意requests 
response = session.post(login_url,headers=headers,data=params)

info_url = "https://www.baidu.cn/index/user.html" #登錄完賬號密碼以后的網(wǎng)頁地址
resp = session.get(info_url,headers=headers)
resp.text

因?yàn)槲疫@里沒有使用需要賬號密碼的網(wǎng)頁，所以顯示這樣：

在這里插入圖片描述

我獲取了一個智慧樹的網(wǎng)頁

#cookie 

import requests
from fake_useragent import UserAgent

headers = {"User-Agent":UserAgent().chrome}
login_url = "https://passport.zhihuishu.com/login?service=https://onlineservice.zhihuishu.com/login/gologin" #需要登錄的網(wǎng)頁地址
params = {
  "user":"12121212",#用戶名
  "password":"123456"#密碼
}
session = requests.Session() #用來保存cookie

#直接用session 歹意requests 
response = session.post(login_url,headers=headers,data=params)

info_url = "https://onlne5.zhhuishu.com/onlinWeb.html#/stdetInex" #登錄完賬號密碼以后的網(wǎng)頁地址
resp = session.get(info_url,headers=headers)
resp.encoding = "utf-8"
resp.text

在這里插入圖片描述

7.獲取響應(yīng)信息

代碼	含義
resp.json()	獲取響應(yīng)內(nèi)容（以json字符串）
resp.text	獲取相應(yīng)內(nèi)容（以字符串）
resp.content	獲取響應(yīng)內(nèi)容（以字節(jié)的方式）
resp.headers	獲取響應(yīng)頭內(nèi)容
resp.url	獲取訪問地址
resp.encoding	獲取網(wǎng)頁編碼
resp.request.headers	請求頭內(nèi)容
resp.cookie	獲取cookie