防止網(wǎng)站被采集的理論分析以及十條方法對(duì)策
7、防盜鏈措施
分析:asp和php可以通過(guò)讀取請(qǐng)求的HTTP_REFERER屬性,來(lái)判斷該請(qǐng)求是否來(lái)自本網(wǎng)站,從而來(lái)限制采集器,同樣也限制了搜索引擎爬蟲(chóng),嚴(yán)重影響搜索引擎對(duì)網(wǎng)站部分防盜鏈內(nèi)容的收錄。
適用網(wǎng)站:不太考慮搜索引擎收錄的網(wǎng)站
采集器會(huì)怎么做:偽裝HTTP_REFERER嘛,不難。
8、全flash、圖片或者pdf來(lái)呈現(xiàn)網(wǎng)站內(nèi)容
分析:對(duì)搜索引擎爬蟲(chóng)和采集器支持性不好,這個(gè)很多懂點(diǎn)seo的人都知道
適用網(wǎng)站:媒體設(shè)計(jì)類(lèi)并且不在意搜索引擎收錄的網(wǎng)站
采集器會(huì)怎么做:不采了,走人
9、網(wǎng)站隨機(jī)采用不同模版
分析:因?yàn)椴杉魇歉鶕?jù)網(wǎng)頁(yè)結(jié)構(gòu)來(lái)定位所需要的內(nèi)容,一旦先后兩次模版更換,采集規(guī)則就失效,不錯(cuò)。而且這樣對(duì)搜索引擎爬蟲(chóng)沒(méi)影響。
適用網(wǎng)站:動(dòng)態(tài)網(wǎng)站,并且不考慮用戶體驗(yàn)。
采集器會(huì)怎么做:一個(gè)網(wǎng)站模版不可能多于10個(gè)吧,每個(gè)模版弄一個(gè)規(guī)則就行了,不同模版采用不同采集規(guī)則。如果多于10個(gè)模版了,既然目標(biāo)網(wǎng)站都那么費(fèi)勁的更換模版,成全他,撤。
10、采用動(dòng)態(tài)不規(guī)則的html標(biāo)簽
分析:這個(gè)比較變態(tài)??紤]到html標(biāo)簽內(nèi)含空格和不含空格效果是一樣的,所以< div >和< div >對(duì)于頁(yè)面顯示效果一樣,但是作為采集器的標(biāo)記就是兩個(gè)不同標(biāo)記了。如果次頁(yè)面的html標(biāo)簽內(nèi)空格數(shù)隨機(jī),那么
采集規(guī)則就失效了。但是,這對(duì)搜索引擎爬蟲(chóng)沒(méi)多大影響。
適合網(wǎng)站:所有動(dòng)態(tài)且不想遵守網(wǎng)頁(yè)設(shè)計(jì)規(guī)范的網(wǎng)站。
采集器會(huì)怎么做:還是有對(duì)策的,現(xiàn)在html cleaner還是很多的,先清理了html標(biāo)簽,然后再寫(xiě)采集規(guī)則;應(yīng)該用采集規(guī)則前先清理html標(biāo)簽,還是能夠拿到所需數(shù)據(jù)。
總結(jié):
一旦要同時(shí)搜索引擎爬蟲(chóng)和采集器,這是很讓人無(wú)奈的事情,因?yàn)樗阉饕娴谝徊骄褪遣杉繕?biāo)網(wǎng)頁(yè)內(nèi)容,這跟采集器原理一樣,所以很多防止采集的方法同時(shí)也阻礙了搜索引擎對(duì)網(wǎng)站的收錄,無(wú)奈,是吧?以上10條建議雖然不能百分之百防采集,但是幾種方法一起適用已經(jīng)拒絕了一大部分采集器了。
相關(guān)文章
ASP 支持中文的len(),left(),right()的函數(shù)代碼
在用ASP處理文字時(shí)。系統(tǒng)自帶的字符串長(zhǎng)度檢測(cè)函數(shù)有時(shí)候也不是很好用。2010-05-05asp中獲取當(dāng)前月份距離以前某個(gè)時(shí)間的月份數(shù)
獲取當(dāng)前月份距離以前某個(gè)時(shí)間的月份數(shù),asp都是用DateDiff函數(shù)來(lái)實(shí)現(xiàn)2012-04-04巧用FileSystem組件實(shí)現(xiàn)WEB應(yīng)用中的本地特定打印的方法
巧用FileSystem組件實(shí)現(xiàn)WEB應(yīng)用中的本地特定打印的方法...2007-04-04ASP中怎么實(shí)現(xiàn)SQL數(shù)據(jù)庫(kù)備份、恢復(fù)!
ASP中怎么實(shí)現(xiàn)SQL數(shù)據(jù)庫(kù)備份、恢復(fù)!...2007-03-03ASP中if語(yǔ)句、select 、while循環(huán)的使用方法
這篇文章主要介紹了ASP中if語(yǔ)句、select 、while循環(huán)的使用方法,需要的朋友可以參考下2015-11-11asp 驗(yàn)證輸入網(wǎng)址是否有效并可以訪問(wèn) 與正則驗(yàn)證輸入網(wǎng)址
這篇文章主要是驗(yàn)證用戶輸入的字符是否是網(wǎng)址的方法,需要的朋友可以參考一下2007-08-08asp中通過(guò)addnew添加內(nèi)容后取得當(dāng)前文章的自遞增ID的方法
asp中使用addnew方法添加一條記錄后,我們經(jīng)常使用取得自遞增的ID,而使用bookmark很容易實(shí)現(xiàn)這樣的功能。2011-01-01隨機(jī)調(diào)用n條數(shù)據(jù)的方法分析
隨機(jī)調(diào)用n條數(shù)據(jù)的方法分析...2007-07-07