對python使用http、https代理的實例講解
在國內(nèi)利用Python從Internet上爬取數(shù)據(jù)時,有些網(wǎng)站或API接口被限速或屏蔽,這時使用代理可以加速爬取過程,減少請求失敗,Python程序使用代理的方法主要有以下幾種:
(1)如果是在代碼中使用一些網(wǎng)絡庫或爬蟲框架進行數(shù)據(jù)爬取,一般這種框架都會支持設(shè)置代理,例如:
<span style="font-size:14px;">import urllib.request as urlreq # 設(shè)置https代理 ph = urlreq.ProxyHandler({'https': 'https://127.0.0.1:1080'}) oper = urlreq.build_opener(ph) # 將代理安裝到全局環(huán)境,這樣所有請求都會自動使用代理 urlreq.install_opener(oper) res = oper.open("https://www.google.com") print(res.read())</span>
<span style="font-size:14px;">import requests as req print(req.get("https://www.google.com", proxies={'https': 'https://127.0.0.1:1080'}).content)</span>
(2)如果使用的庫沒有提供設(shè)置代理的接口,但是底層使用了urllib、requests等庫,可以嘗試設(shè)置HTTP_PROXY 和HTTPS_PROXY環(huán)境變量,常用的網(wǎng)絡庫會自動識別這些環(huán)境變量,使用變量設(shè)置的代理發(fā)起請求,設(shè)置如下:
import os os.environ['http_proxy'] = 'http://127.0.0.1:1080' os.environ['https_proxy'] = 'https://127.0.0.1:1080'
(3)如果上述兩種方法都沒有用,那么還可以使用一些可以監(jiān)聽、攔截和修改網(wǎng)絡包的工具和庫如(Fiddler、mitmproxy)來攔截http請求包并修改地址,達到使用代理的效果。
以上這篇對python使用http、https代理的實例講解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
- Python程序中設(shè)置HTTP代理
- 批量獲取及驗證HTTP代理的Python腳本
- Python3.4實現(xiàn)從HTTP代理網(wǎng)站批量獲取代理并篩選的方法示例
- Python request設(shè)置HTTPS代理代碼解析
- Python代碼實現(xiàn)http/https代理服務器的腳本
- python爬蟲http代理使用方法
- Python異步爬蟲requests和aiohttp中代理IP的使用
- python使用aiohttp通過設(shè)置代理爬取基金數(shù)據(jù)簡單示例
- 解決python異步框架aiohttp無法使用本地代理問題
- python做http代理請求的項目實踐
相關(guān)文章
python中的os.mkdir和os.makedirs的使用區(qū)別及如何查看某個模塊中的某些字母開頭的屬性方法
這篇文章主要介紹了python中的os.mkdir和os.makedirs的使用區(qū)別及如何查看某個模塊中的某些字母開頭的屬性方法,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2023-03-03No module named 'plotly.graph_objects&ap
這篇文章主要為大家介紹了No module named 'plotly.graph_objects'報錯解決,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-12-12python使用numpy按一定格式讀取bin文件的實現(xiàn)
這篇文章主要介紹了python使用numpy按一定格式讀取bin文件的實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-05-05詳解python如何正確使用時間戳,日期,時間,時區(qū)
這篇文章主要為大家介紹了如何在python中正確使用時間戳,日期,時間,時區(qū),文中通過簡單的示例進行了詳細介紹,希望對大家有一定的幫助2024-11-11