亚洲乱码中文字幕综合,中国熟女仑乱hd,亚洲精品乱拍国产一区二区三区,一本大道卡一卡二卡三乱码全集资源,又粗又黄又硬又爽的免费视频

使用爬蟲(chóng)采集網(wǎng)站時(shí),解決被封IP的幾種方法

  發(fā)布時(shí)間:2016-10-08 14:14:50   作者:佚名   我要評(píng)論
這篇文章主要介紹了使用爬蟲(chóng)采集網(wǎng)站時(shí),解決被封IP的幾種方法的相關(guān)資料,需要的朋友可以參考下
方法1.
之前由于公司項(xiàng)目需要,采集過(guò)google地圖數(shù)據(jù),還有一些大型網(wǎng)站數(shù)據(jù)。
經(jīng)驗(yàn)如下:
1.IP必須需要,像@alswl 說(shuō)的非常正確,ADSL。如果有條件,其實(shí)可以跟機(jī)房多申請(qǐng)外網(wǎng)IP。
2.在有外網(wǎng)IP的機(jī)器上,部署代理服務(wù)器。
3.你的程序,使用輪訓(xùn)替換代理服務(wù)器來(lái)訪問(wèn)想要采集的網(wǎng)站。
好處:
1.程序邏輯變化小,只需要代理功能。
2.根據(jù)對(duì)方網(wǎng)站屏蔽規(guī)則不同,你只需要添加更多的代理就行了。
3.就算具體IP被屏蔽了,你可以直接把代理服務(wù)器下線就OK,程序邏輯不需要變化。
方法2.
有小部分網(wǎng)站的防范措施比較弱,可以偽裝下IP,修改X-Forwarded-for(貌似這么拼。。。)即可繞過(guò)。
大部分網(wǎng)站么,如果要頻繁抓取,一般還是要多IP。我比較喜歡的解決方案是國(guó)外VPS再配多IP,通過(guò)默認(rèn)網(wǎng)關(guān)切換來(lái)實(shí)現(xiàn)IP切換,比HTTP代理高效得多,估計(jì)也比多數(shù)情況下的ADSL切換更高效。
方法3.
ADSL + 腳本,監(jiān)測(cè)是否被封,然后不斷切換 ip
設(shè)置查詢頻率限制
正統(tǒng)的做法是調(diào)用該網(wǎng)站提供的服務(wù)接口。
方法4.
8年多爬蟲(chóng)經(jīng)驗(yàn)的人告訴你,國(guó)內(nèi)ADSL是王道,多申請(qǐng)些線路,分布在多個(gè)不同的電信區(qū)局,能跨省跨市更好,自己寫好斷線重?fù)芙M件,自己寫動(dòng)態(tài)IP追蹤服務(wù),遠(yuǎn)程硬件重置(主要針對(duì)ADSL貓,防止其宕機(jī)),其余的任務(wù)分配,數(shù)據(jù)回收,都不是大問(wèn)題。我的已經(jīng)穩(wěn)定運(yùn)行了好幾年了,妥妥的!
方法5.
1 user agent 偽裝和輪換
2 使用代理 ip 和輪換
3 cookies 的處理,有的網(wǎng)站對(duì)登陸用戶政策寬松些
友情提示:考慮爬蟲(chóng)給人家網(wǎng)站帶來(lái)的負(fù)擔(dān),be a responsible crawler :)
方法6.
盡可能的模擬用戶行為:
1、UserAgent經(jīng)常換一換;
2、訪問(wèn)時(shí)間間隔設(shè)長(zhǎng)一點(diǎn),訪問(wèn)時(shí)間設(shè)置為隨機(jī)數(shù);
3、訪問(wèn)頁(yè)面的順序也可以隨機(jī)著來(lái)
方法8.
網(wǎng)站封的依據(jù)一般是單位時(shí)間內(nèi)特定IP的訪問(wèn)次數(shù).
我是將采集的任務(wù)按 目標(biāo)站點(diǎn)的IP進(jìn)行分組 通過(guò)控制每個(gè)IP 在單位時(shí)間內(nèi)發(fā)出任務(wù)的個(gè)數(shù),來(lái)避免被封.當(dāng)然,這個(gè)前題是你采集很多網(wǎng)站.如果只是采集一個(gè)網(wǎng)站,那么只能通過(guò)多外部IP的方式來(lái)實(shí)現(xiàn)了.
方法9.
1. 對(duì)爬蟲(chóng)抓取進(jìn)行壓力控制;
2. 可以考慮使用代理的方式訪問(wèn)目標(biāo)站點(diǎn)。
-降低抓取頻率,時(shí)間設(shè)置長(zhǎng)一些,訪問(wèn)時(shí)間采用隨機(jī)數(shù)
-頻繁切換UserAgent(模擬瀏覽器訪問(wèn))
-多頁(yè)面數(shù)據(jù),隨機(jī)訪問(wèn)然后抓取數(shù)據(jù)
-更換用戶IP

相關(guān)文章

  • Pholcus(幽靈蛛)爬蟲(chóng)軟件 v1.2

    Pholcus(幽靈蛛)是一款純Go語(yǔ)言編寫的支持分布式的高并發(fā)、重量級(jí)爬蟲(chóng)軟件,定位于互聯(lián)網(wǎng)數(shù)據(jù)采集,為具備一定Go或JS編程基礎(chǔ)的人提供一個(gè)只需關(guān)注規(guī)則定制的功能強(qiáng)大的
    2016-09-28
  • python網(wǎng)絡(luò)爬蟲(chóng)(抓取網(wǎng)頁(yè)的含義和URL基本構(gòu)成) 中文PDF版 4.25MB

    爬蟲(chóng)最主要的處理對(duì)象就是URL,他根據(jù)URL地址取得所需要的文件內(nèi)容,然后對(duì)它進(jìn)行一步的處理。因此,準(zhǔn)確的理解URL對(duì)理解網(wǎng)絡(luò)爬蟲(chóng)至關(guān)重要。感興趣的朋友可以過(guò)來(lái)看看
    2016-09-13
  • Python 爬蟲(chóng)修養(yǎng)-處理動(dòng)態(tài)網(wǎng)頁(yè)

    在爬蟲(chóng)開(kāi)發(fā)中,大家可以很輕易地 bypass 所謂的 UA 限制,甚至用 scrapy 框架輕易實(shí)現(xiàn)按照深度進(jìn)行爬行。但是實(shí)際上,這些并不夠。關(guān)于爬蟲(chóng)的基礎(chǔ)知識(shí)比如數(shù)據(jù)處理與數(shù)據(jù)存
    2016-09-12
  • 簡(jiǎn)易網(wǎng)頁(yè)爬蟲(chóng) V1.0 綠色免費(fèi)版

    簡(jiǎn)易網(wǎng)頁(yè)爬蟲(chóng)是一款非常方便易用的網(wǎng)頁(yè)爬蟲(chóng)軟件。網(wǎng)絡(luò)爬蟲(chóng)是一種按照一定的規(guī)則,自動(dòng)地抓取萬(wàn)維網(wǎng)信息的程序或者腳本。用戶可以通過(guò)軟件來(lái)分析網(wǎng)頁(yè)中的所有鏈接,需要的朋
    2016-07-03
  • 淺談百度爬蟲(chóng)的HTTP狀態(tài)碼返回機(jī)制

    HTTP狀態(tài)碼我們都很熟悉,SEO工作中我們也需要迎合百度蜘蛛對(duì)常見(jiàn)的HTTP返回碼來(lái)做相關(guān)調(diào)整,下面我們就來(lái)淺談百度爬蟲(chóng)的HTTP狀態(tài)碼返回機(jī)制
    2016-06-22
  • 什么是搜索引擎蜘蛛?SEO搜索引擎蜘蛛工作原理

    作為一名編輯乃至站長(zhǎng),在關(guān)注網(wǎng)站在搜索引擎排名的時(shí)候,最重要的就是蜘蛛(spider)。搜索引擎蜘蛛是一個(gè)自動(dòng)抓取互聯(lián)網(wǎng)上網(wǎng)頁(yè)內(nèi)容的程序,每個(gè)搜索引擎都有自己的蜘蛛,那
    2016-05-27
  • Python Scrapy爬蟲(chóng)框架學(xué)習(xí)(Learning Scrapy) 英文PDF版[6.64MB]

    是針對(duì)高人氣Python爬蟲(chóng)開(kāi)發(fā)框架Scrapy的學(xué)習(xí)教材,Scrapy只需要一個(gè)配置文件就能組合各種組件和配置選項(xiàng),并且Scrapy是基于事件(event-based)的架構(gòu),使得我們可以級(jí)聯(lián)多個(gè)
    2016-05-04
  • Python爬蟲(chóng)編程(Web Scraping with Python) 英文PDF版[3.25MB]

    Python在Web編程領(lǐng)域最為人們所津津樂(lè)道的運(yùn)用就是爬蟲(chóng)的編寫,從urlib等模塊到Scrapy等框架,從自帶到第三方,Python世界中用于編寫爬蟲(chóng)的輪子可以說(shuō)是譽(yù)滿天下
    2016-04-15
  • 阿布采集 網(wǎng)絡(luò)爬蟲(chóng)軟件 v1.0 中文綠色版

    阿布采集是由布谷中國(guó)開(kāi)發(fā)的一款爬蟲(chóng)平臺(tái),脫胎于10年開(kāi)發(fā)的布谷郵箱蜘蛛,經(jīng)過(guò)反復(fù)的改進(jìn)、調(diào)試甚至重做后,又經(jīng)歷長(zhǎng)時(shí)間的BUG測(cè)試、性能測(cè)試后爬蟲(chóng)“阿布采集1.0”終于熬
    2014-02-12

最新評(píng)論