防止網(wǎng)頁被搜索引擎爬蟲和網(wǎng)頁采集器收錄的方法匯總

下面的這些方法是可以標本兼治的:
1、限制IP地址單位時間的訪問次數(shù)
分析:沒有哪個常人一秒鐘內(nèi)能訪問相同網(wǎng)站5次,除非是程序訪問,而有這種喜好的,就剩下搜索引擎爬蟲和討厭的采集器了。
弊端:一刀切,這同樣會阻止搜索引擎對網(wǎng)站的收錄
適用網(wǎng)站:不太依靠搜索引擎的網(wǎng)站
采集器會怎么做:減少單位時間的訪問次數(shù),減低采集效率
2、屏蔽ip
分析:通過后臺計數(shù)器,記錄來訪者ip和訪問頻率,人為分析來訪記錄,屏蔽可疑Ip。
弊端:似乎沒什么弊端,就是站長忙了點
適用網(wǎng)站:所有網(wǎng)站,且站長能夠知道哪些是google或者百度的機器人
采集器會怎么做:打游擊戰(zhàn)唄!利用ip代理采集一次換一次,不過會降低采集器的效率和網(wǎng)速(用代理嘛)。
3、利用js加密網(wǎng)頁內(nèi)容
Note:這個方法我沒接觸過,只是從別處看來
分析:不用分析了,搜索引擎爬蟲和采集器通殺
適用網(wǎng)站:極度討厭搜索引擎和采集器的網(wǎng)站
采集器會這么做:你那么牛,都豁出去了,他就不來采你了
4、網(wǎng)頁里隱藏網(wǎng)站版權(quán)或者一些隨機垃圾文字,這些文字風格寫在css文件中
分析:雖然不能防止采集,但是會讓采集后的內(nèi)容充滿了你網(wǎng)站的版權(quán)說明或者一些垃圾文字,因為一般采集器不會同時采集你的css文件,那些文字沒了風格,就顯示出來了。
適用網(wǎng)站:所有網(wǎng)站
采集器會怎么做:對于版權(quán)文字,好辦,替換掉。對于隨機的垃圾文字,沒辦法,勤快點了。
5、用戶登錄才能訪問網(wǎng)站內(nèi)容 *
分析:搜索引擎爬蟲不會對每個這樣類型的網(wǎng)站設(shè)計登錄程序。聽說采集器可以針對某個網(wǎng)站設(shè)計模擬用戶登錄提交表單行為。
適用網(wǎng)站:極度討厭搜索引擎,且想阻止大部分采集器的網(wǎng)站
采集器會怎么做:制作擬用戶登錄提交表單行為的模塊
6、利用腳本語言做分頁(隱藏分頁)
分析:還是那句,搜索引擎爬蟲不會針對各種網(wǎng)站的隱藏分頁進行分析,這影響搜索引擎對其收錄。但是,采集者在編寫采集規(guī)則時,要分析目標網(wǎng)頁代碼,懂點腳本知識的人,就會知道分頁的真實鏈接地址。
適用網(wǎng)站:對搜索引擎依賴度不高的網(wǎng)站,還有,采集你的人不懂腳本知識
采集器會怎么做:應(yīng)該說采集者會怎么做,他反正都要分析你的網(wǎng)頁代碼,順便分析你的分頁腳本,花不了多少額外時間。
7、防盜鏈措施 (只允許通過本站頁面連接查看,如:Request.ServerVariables(“HTTP_REFERER“) )
分析:asp和php可以通過讀取請求的HTTP_REFERER屬性,來判斷該請求是否來自本網(wǎng)站,從而來限制采集器,同樣也限制了搜索引擎爬蟲,嚴重影響搜索引擎對網(wǎng)站部分防盜鏈內(nèi)容的收錄。
適用網(wǎng)站:不太考慮搜索引擎收錄的網(wǎng)站
采集器會怎么做:偽裝HTTP_REFERER嘛,不難。
8、全flash、圖片或者pdf來呈現(xiàn)網(wǎng)站內(nèi)容
分析:對搜索引擎爬蟲和采集器支持性不好,這個很多懂點seo的人都知道
適用網(wǎng)站:媒體設(shè)計類并且不在意搜索引擎收錄的網(wǎng)站
采集器會怎么做:不采了,走人
9、網(wǎng)站隨機采用不同模版
分析:因為采集器是根據(jù)網(wǎng)頁結(jié)構(gòu)來定位所需要的內(nèi)容,一旦先后兩次模版更換,采集規(guī)則就失效,不錯。而且這樣對搜索引擎爬蟲沒影響。
適用網(wǎng)站:動態(tài) 網(wǎng)站,并且不考慮用戶體驗。
采集器會怎么做:一個網(wǎng)站模版不可能多于10個吧,每個模版弄一個規(guī)則就行了,不同模版采用不同采集規(guī)則。如果多于10個模版了,既然目標網(wǎng)站都那么費勁的更換模版,成全他,撤。
10、采用動態(tài)不規(guī)則的html標簽
分析:考慮到html標簽內(nèi)含空格和不含空格效果是一樣的,所以< div >和< div >對于頁面顯示效果一樣,但是作為采集器的標記就是兩個不同標記了。如果每次頁面的html標簽內(nèi)空格數(shù)隨機,那么
采集規(guī)則就失效了。但是,這對搜索引擎爬蟲沒多大影響。
適合網(wǎng)站:所有動態(tài)且不想遵守網(wǎng)頁設(shè)計規(guī)范的網(wǎng)站。
采集器會怎么做:還是有對策的,現(xiàn)在html cleaner還是很多的,先清理了html標簽,然后再寫采集規(guī)則;應(yīng)該用采集規(guī)則前先清理html標簽,還是能夠拿到所需數(shù)據(jù)。
相關(guān)文章
網(wǎng)站http服務(wù)器內(nèi)部500錯誤的解決方法 [圖文]
很多站長在建設(shè)網(wǎng)站時,經(jīng)常遇到程序運行時打不開的問題,有的是因為程序出現(xiàn)錯誤,無法運行,而有的是因為服務(wù)器的原因,這篇文章從客戶端設(shè)置等方面盡量快速發(fā)現(xiàn)問題所在2015-09-01- 今天在查看web服務(wù)器日志的時候看到有很多304的http狀態(tài),為什么會返回304而不是200呢?這與服務(wù)器的緩存設(shè)置非常有關(guān)2013-04-14
SmartScreen 篩選器常見問題(IE8 提示此為已報告的不安全網(wǎng)站)
最近有訪客告訴我們,我們的首頁訪問的時候就提示不安全,但實際上我們的頁面沒有問題,不知道具體是什么原因已經(jīng)聯(lián)系了,不知道什么時候可以解決2012-07-16網(wǎng)站地址欄前面的小圖標favicon.ico制作方法
有人也許會好奇,有的網(wǎng)址前面有個漂亮的小圖標而且有的網(wǎng)站圖標還會動,這是怎么做的呢?2010-01-27- 我們在申請微信自定義菜單時,要用到appid和appsecret,如何獲得appid和appsecret呢?下面我會詳細介紹2014-05-15
- 新手建好了網(wǎng)站可能不知道如何在服務(wù)器上建立站點,讓互聯(lián)網(wǎng)其他人能訪問自己的網(wǎng)站,今天通過親手實踐操作,以圖文形式描述在服務(wù)器上建立站點的一些步驟和方法。2012-06-21
- 一些大型網(wǎng)站對于后臺語言的選擇.2010-02-07
- 本文所指網(wǎng)站的內(nèi)容僅為WEB站點,如果是視頻游戲網(wǎng)站可能在1000IP以下,視 頻 聊 天最多能承受1000IP左右,文字聊天室大約3000IP,上傳類網(wǎng)站數(shù)千IP2012-11-10
網(wǎng)站建設(shè)之編碼轉(zhuǎn)碼工具utf-8與gbk轉(zhuǎn)換方法
在網(wǎng)站建設(shè)中經(jīng)常會遇到編碼轉(zhuǎn)碼工具utf-8與gbk轉(zhuǎn)換,比較笨的方法是用Dreamweaver轉(zhuǎn)換,要是一個兩個還好,一兩百個文件就完了2012-01-06手把手教你如何花3分鐘就能學(xué)會創(chuàng)建網(wǎng)站
大家都以為創(chuàng)建一個屬于自己的網(wǎng)站但是非常困難的,其實是非常簡單的,切記千萬不要找什么代理,話那種冤枉錢,希望看了這篇文章,你就學(xué)會了如何去創(chuàng)建自己的網(wǎng)站了2016-09-02