使用爬蟲(chóng)采集網(wǎng)站時(shí)，解決被封IP的幾種方法

發(fā)布時(shí)間：2016-10-08 14:14:50 作者：佚名

這篇文章主要介紹了使用爬蟲(chóng)采集網(wǎng)站時(shí)，解決被封IP的幾種方法的相關(guān)資料,需要的朋友可以參考下

方法1.
之前由于公司項(xiàng)目需要，采集過(guò)google地圖數(shù)據(jù)，還有一些大型網(wǎng)站數(shù)據(jù)。
經(jīng)驗(yàn)如下：
1.IP必須需要，像@alswl 說(shuō)的非常正確，ADSL。如果有條件，其實(shí)可以跟機(jī)房多申請(qǐng)外網(wǎng)IP。
2.在有外網(wǎng)IP的機(jī)器上，部署代理服務(wù)器。
3.你的程序，使用輪訓(xùn)替換代理服務(wù)器來(lái)訪問(wèn)想要采集的網(wǎng)站。
好處：
1.程序邏輯變化小，只需要代理功能。
2.根據(jù)對(duì)方網(wǎng)站屏蔽規(guī)則不同，你只需要添加更多的代理就行了。
3.就算具體IP被屏蔽了，你可以直接把代理服務(wù)器下線就OK，程序邏輯不需要變化。
方法2.
有小部分網(wǎng)站的防范措施比較弱，可以偽裝下IP，修改X-Forwarded-for（貌似這么拼。。。）即可繞過(guò)。
大部分網(wǎng)站么，如果要頻繁抓取，一般還是要多IP。我比較喜歡的解決方案是國(guó)外VPS再配多IP，通過(guò)默認(rèn)網(wǎng)關(guān)切換來(lái)實(shí)現(xiàn)IP切換，比HTTP代理高效得多，估計(jì)也比多數(shù)情況下的ADSL切換更高效。
方法3.
ADSL + 腳本，監(jiān)測(cè)是否被封，然后不斷切換 ip
設(shè)置查詢頻率限制
正統(tǒng)的做法是調(diào)用該網(wǎng)站提供的服務(wù)接口。
方法4.
8年多爬蟲(chóng)經(jīng)驗(yàn)的人告訴你，國(guó)內(nèi)ADSL是王道，多申請(qǐng)些線路，分布在多個(gè)不同的電信區(qū)局，能跨省跨市更好，自己寫好斷線重?fù)芙M件，自己寫動(dòng)態(tài)IP追蹤服務(wù)，遠(yuǎn)程硬件重置（主要針對(duì)ADSL貓，防止其宕機(jī)），其余的任務(wù)分配，數(shù)據(jù)回收，都不是大問(wèn)題。我的已經(jīng)穩(wěn)定運(yùn)行了好幾年了，妥妥的！
方法5.
1 user agent 偽裝和輪換
2 使用代理 ip 和輪換
3 cookies 的處理，有的網(wǎng)站對(duì)登陸用戶政策寬松些
友情提示：考慮爬蟲(chóng)給人家網(wǎng)站帶來(lái)的負(fù)擔(dān)，be a responsible crawler :)
方法6.
盡可能的模擬用戶行為：
1、UserAgent經(jīng)常換一換；
2、訪問(wèn)時(shí)間間隔設(shè)長(zhǎng)一點(diǎn)，訪問(wèn)時(shí)間設(shè)置為隨機(jī)數(shù)；
3、訪問(wèn)頁(yè)面的順序也可以隨機(jī)著來(lái)
方法8.
網(wǎng)站封的依據(jù)一般是單位時(shí)間內(nèi)特定IP的訪問(wèn)次數(shù).
我是將采集的任務(wù)按目標(biāo)站點(diǎn)的IP進(jìn)行分組通過(guò)控制每個(gè)IP 在單位時(shí)間內(nèi)發(fā)出任務(wù)的個(gè)數(shù),來(lái)避免被封.當(dāng)然,這個(gè)前題是你采集很多網(wǎng)站.如果只是采集一個(gè)網(wǎng)站,那么只能通過(guò)多外部IP的方式來(lái)實(shí)現(xiàn)了.
方法9.
1. 對(duì)爬蟲(chóng)抓取進(jìn)行壓力控制；
2. 可以考慮使用代理的方式訪問(wèn)目標(biāo)站點(diǎn)。
-降低抓取頻率，時(shí)間設(shè)置長(zhǎng)一些，訪問(wèn)時(shí)間采用隨機(jī)數(shù)
-頻繁切換UserAgent（模擬瀏覽器訪問(wèn)）
-多頁(yè)面數(shù)據(jù)，隨機(jī)訪問(wèn)然后抓取數(shù)據(jù)
-更換用戶IP