Python數(shù)據(jù)抓取爬蟲代理防封IP方法
爬蟲:一段自動抓取互聯(lián)網(wǎng)信息的程序,從互聯(lián)網(wǎng)上抓取對于我們有價值的信息,一般來說,Python爬蟲程序很多時候都要使用(飛豬IP)代理的IP地址來爬取程序,但是默認的urlopen是無法使用代理的IP的,我就來分享一下Python爬蟲怎樣使用代理IP的經(jīng)驗。(推薦飛豬代理IP注冊可免費使用,瀏覽器搜索可找到)
1、劃重點,小編我用的是Python3哦,所以要導入urllib的request,然后我們調(diào)用ProxyHandler,它可以接收代理IP的參數(shù)。代理可以根據(jù)自己需要選擇,當然免費的也是有的,但是可用率可想而知的。(飛豬IP)
2、接著把IP地址以字典的形式放入其中,這個IP地址是我亂寫的,只是用來舉例。設置鍵為http,當然有些是https的,然后后面就是IP地址以及端口號(9000),具體看你的IP地址是什么類型的,不同IP端口號可能不同根據(jù)你在飛豬提取的端口為準。
3、接著再用build_opener()來構(gòu)建一個opener對象。
4、然后調(diào)用構(gòu)建好的opener對象里面的open方法來發(fā)生請求。實際上urlopen也是類似這樣使用內(nèi)部定義好的opener.open(),這里就相當于我們自己重寫。
5、當然了,如果我們使用install_opener(),就可以把之前自定義的opener設置成全局的。
6、設置成全局之后,如果我們再使用urlopen來發(fā)送請求,那么發(fā)送請求使用的IP地址就是代理IP,而不是本機的IP地址了。
7、最后再來說說使用代理遇到的錯誤,提示目標計算機積極拒絕,這就說明可能是代理IP無效,或者端口號錯誤,這就需要使用有效的IP才行哦。(這邊現(xiàn)在是亂填寫的IP地址)可選擇飛豬的代理IP。
總結(jié):以上就是本次關(guān)于Python數(shù)據(jù)抓取爬蟲代理防封IP方法,感謝大家的閱讀和對腳本之家的支持。
相關(guān)文章
Python使用PEfile模塊實現(xiàn)分析PE文件
PeFile模塊是Python中一個強大的便攜式第三方PE格式分析工具,用于解析和處理Windows可執(zhí)行文件,本文主要就來講講如何使用PEfile模塊實現(xiàn)分析PE文件,需要的可以參考下2023-08-08Python+Delorean實現(xiàn)時間格式智能轉(zhuǎn)換
DeLorean是一個Python的第三方模塊,基于?pytz?和?dateutil?開發(fā),用于處理Python中日期時間的格式轉(zhuǎn)換。本文將詳細講講DeLorean的使用,感興趣的可以了解一下2022-04-04pandas數(shù)據(jù)處理之 標簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)
這篇文章主要介紹了pandas數(shù)據(jù)處理之 標簽列字符轉(zhuǎn)數(shù)字的實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2021-03-03Python-jenkins模塊獲取jobs的執(zhí)行狀態(tài)操作
這篇文章主要介紹了Python-jenkins模塊獲取jobs的執(zhí)行狀態(tài)操作,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05