網(wǎng)站優(yōu)化中怎樣盡量減少無(wú)效URL的爬行和索引

簡(jiǎn)單說(shuō),帖子指出一個(gè)嚴(yán)重而且現(xiàn)實(shí)的SEO問題:很多網(wǎng)站,尤其是B2C,產(chǎn)品條件過濾系統(tǒng)(如選擇產(chǎn)品的品牌、價(jià)格、尺寸、性能、參數(shù)等)會(huì)產(chǎn)生大量無(wú)效URL,之所以稱為無(wú)效只是從SEO角度看的,這些URL并不能產(chǎn)生SEO作用,反倒有負(fù)面作用,所以這些URL不收錄為好,原因包括:
大量過濾條件頁(yè)面內(nèi)容重復(fù)或極為類似(大量復(fù)制內(nèi)容將使網(wǎng)站整體質(zhì)量下降)
大量過濾條件頁(yè)面沒有對(duì)應(yīng)產(chǎn)品,頁(yè)面無(wú)內(nèi)容(如選擇“100元以下42寸LED電視”之類的)
絕大部分過濾條件頁(yè)面沒有排名能力(排名能力比分類頁(yè)面低得多)卻浪費(fèi)一定權(quán)重
這些過濾條件頁(yè)面也不是產(chǎn)品頁(yè)面收錄的必要通道(產(chǎn)品頁(yè)面應(yīng)該有其它內(nèi)鏈幫助爬行和收錄)
爬行大量過濾條件頁(yè)面極大浪費(fèi)蜘蛛爬行時(shí)間,造成有用頁(yè)面收錄機(jī)會(huì)下降(過濾條件頁(yè)面組合起來(lái)是巨量的)
簡(jiǎn)單說(shuō),帖子指出一個(gè)嚴(yán)重而且現(xiàn)實(shí)的SEO問題:很多網(wǎng)站,尤其是B2C,產(chǎn)品條件過濾系統(tǒng)(如選擇產(chǎn)品的品牌、價(jià)格、尺寸、性能、參數(shù)等)會(huì)產(chǎn)生大量無(wú)效URL,之所以稱為無(wú)效只是從SEO角度看的,這些URL并不能產(chǎn)生SEO作用,反倒有負(fù)面作用,所以這些URL不收錄為好,原因包括:
大量過濾條件頁(yè)面內(nèi)容重復(fù)或極為類似(大量復(fù)制內(nèi)容將使網(wǎng)站整體質(zhì)量下降)
大量過濾條件頁(yè)面沒有對(duì)應(yīng)產(chǎn)品,頁(yè)面無(wú)內(nèi)容(如選擇“100元以下42寸LED電視”之類的)
絕大部分過濾條件頁(yè)面沒有排名能力(排名能力比分類頁(yè)面低得多)卻浪費(fèi)一定權(quán)重
這些過濾條件頁(yè)面也不是產(chǎn)品頁(yè)面收錄的必要通道(產(chǎn)品頁(yè)面應(yīng)該有其它內(nèi)鏈幫助爬行和收錄)
爬行大量過濾條件頁(yè)面極大浪費(fèi)蜘蛛爬行時(shí)間,造成有用頁(yè)面收錄機(jī)會(huì)下降(過濾條件頁(yè)面組合起來(lái)是巨量的)
那么怎樣盡量使這些URL不被爬行和索引、收錄呢?不過可惜,我目前想不出完美的解決方法。提出兩個(gè)方法,我覺得都無(wú)法完美解決。
第一個(gè)方法,是將不想收錄的URL保持為動(dòng)態(tài)URL,甚至故意越動(dòng)態(tài)越好,以阻止被爬行和收錄。但是,搜索引擎現(xiàn)在都能爬行、收錄動(dòng)態(tài)URL,而且技術(shù)上越來(lái)越不是問題。雖然參數(shù)多到一定程度確實(shí)不利于收錄,但4、5個(gè)參數(shù)通常還可以收錄。我們無(wú)法確認(rèn)需要多少參數(shù)才能阻止收錄,所以不能當(dāng)作一個(gè)可靠的方法。而且這些URL接收內(nèi)鏈,又沒有什么排名能力,還是會(huì)浪費(fèi)一定權(quán)重。
第二個(gè)方法,robots禁止收錄。同樣,URL接收了內(nèi)鏈也就接收了權(quán)重,robots文件禁止爬行這些URL,所以接收的權(quán)重不能傳遞出去(搜索引擎不爬行就不知道有什么導(dǎo)出鏈接),頁(yè)面成為權(quán)重只進(jìn)不出的黑洞。
連向這些URL的鏈接配合nofollow也不完美,和robots禁止類似,nofollow在Google的效果是這些URL沒有接收權(quán)重,權(quán)重卻也沒有被分配到其它鏈接上,所以權(quán)重同樣浪費(fèi)了。百度據(jù)稱支持nofollow,但權(quán)重怎么處理未知。
將這些URL鏈接放在Flash、JS里也沒有用,搜索引擎已經(jīng)可以爬行Flash、JS里的鏈接,而且估計(jì)以后越來(lái)越擅長(zhǎng)爬。很多SEO忽略了的一點(diǎn)是,JS中的鏈接不僅能被爬,也能傳遞權(quán)重,和正常連接一樣。
也可以將過濾條件鏈接做成AJAX形式,用戶點(diǎn)擊后不會(huì)訪問一個(gè)新的URL,還是在原來(lái)URL上,URL后面加了#,不會(huì)被當(dāng)成不同URL。和JS問題一樣,搜索引擎正在積極嘗試爬行、抓取AJAX里的內(nèi)容,這個(gè)方法也不保險(xiǎn)。
還一個(gè)方法是在頁(yè)面head部分加noindex+follow標(biāo)簽,意即本頁(yè)面不要索引,但跟蹤頁(yè)面上的鏈接。這樣可以解決復(fù)制內(nèi)容問題,也解決了權(quán)重黑洞問題(權(quán)重是可以隨著導(dǎo)出鏈接傳到其它頁(yè)面的),不能解決的是浪費(fèi)蜘蛛爬行時(shí)間問題,這些頁(yè)面還是要被蜘蛛爬行抓取的(然后才能看到頁(yè)面html里的noindex+follow標(biāo)簽),對(duì)某些網(wǎng)站來(lái)說(shuō),過濾頁(yè)面數(shù)量巨大,爬行了這些頁(yè)面,蜘蛛就沒足夠時(shí)間爬有用頁(yè)面了。
再一個(gè)可以考慮的方法是隱藏頁(yè)面(cloaking),也就是用程序檢測(cè)訪問者,是搜索引擎蜘蛛的話返回的頁(yè)面拿掉這些過濾條件鏈接,是用戶的話才返回正常的有過濾條件的頁(yè)面。這是一個(gè)比較理想的解決方法,唯一的問題是,可能被當(dāng)作作弊。搜索引擎常跟SEO講的判斷是否作弊的最高原則是:如果沒有搜索引擎,你會(huì)不會(huì)這么做?或者說(shuō),某種方法是否只是為了搜索引擎而采用?顯然,用cloaking隱藏不想被爬行的URL是為搜索引擎做的,不是為用戶做的。雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風(fēng)險(xiǎn)是存在的,膽大的可試用。
還一個(gè)方法是使用canonical標(biāo)簽,最大問題是百度是否支持未知,而且canonical標(biāo)簽是對(duì)搜索引擎的建議,不是指令,也就是說(shuō)這個(gè)標(biāo)簽搜索引擎可能不遵守,等于沒用。另外,canonical標(biāo)簽的本意是指定規(guī)范化網(wǎng)址,過濾條件頁(yè)面是否適用有些存疑,畢竟,這些頁(yè)面上的內(nèi)容經(jīng)常是不同的。
目前比較好的方法之一是iframe+robots禁止。將過濾部分代碼放進(jìn)iframe,等于調(diào)用其它文件內(nèi)容,對(duì)搜索引擎來(lái)說(shuō),這部分內(nèi)容不屬于當(dāng)前頁(yè)面,也即隱藏了內(nèi)容。但不屬于當(dāng)前頁(yè)面不等于不存在,搜索引擎是可以發(fā)現(xiàn)iframe中的內(nèi)容和鏈接的,還是可能爬行這些URL,所以加robots禁止爬行。iframe中的內(nèi)容還是會(huì)有一些權(quán)重流失,但因?yàn)閕frame里的鏈接不是從當(dāng)前頁(yè)面分流權(quán)重,而只是從調(diào)用的那個(gè)文件分流,所以權(quán)重流失是比較少的。除了排版、瀏覽器兼容性之類的頭疼問題,iframe方法的一個(gè)潛在問題是被認(rèn)為作弊的風(fēng)險(xiǎn)?,F(xiàn)在搜索引擎一般不認(rèn)為iframe是作弊,很多廣告就是放在iframe中,但隱藏一堆鏈接和隱藏廣告有些微妙的區(qū)別?;氐剿阉饕媾袛嘧鞅椎目傇瓌t上,很難說(shuō)這不是專門為搜索引擎做的。記得Matt Cutts說(shuō)過,Google以后可能改變處理iframe的方式,他們還是希望在同一個(gè)頁(yè)面上看到普通用戶能看到的所有內(nèi)容。
總之,對(duì)這個(gè)現(xiàn)實(shí)、嚴(yán)重的問題,我目前沒有自己覺得完美的答案。當(dāng)然,不能完美解決不是就不能活了,不同網(wǎng)站SEO重點(diǎn)不同,具體問題具體分析,采用上述方法中的一種或幾種應(yīng)該可以解決主要問題。
而最最最大的問題還不是上述這些,而是有時(shí)候你想讓這些過濾頁(yè)面被爬行和收錄,這才是杯具的開始。以后再討論。
一是將不想收錄的URL保持為動(dòng)態(tài)URL,甚至故意越動(dòng)態(tài)越好,以阻止被爬行和收錄。但是,搜索引擎現(xiàn)在都能爬行、收錄動(dòng)態(tài)URL,而且技術(shù)上越來(lái)越不是問題。雖然參數(shù)多到一定程度確實(shí)不利于收錄,但4、5個(gè)參數(shù)通常還可以收錄。我們無(wú)法確認(rèn)需要多少參數(shù)才能阻止收錄,所以不能當(dāng)作一個(gè)可靠的方法。而且這些URL接收內(nèi)鏈,又沒有什么排名能力,還是會(huì)浪費(fèi)一定權(quán)重。
第二個(gè)方法,robots禁止收錄。同樣,URL接收了內(nèi)鏈也就接收了權(quán)重,robots文件禁止爬行這些URL,所以接收的權(quán)重不能傳遞出去(搜索引擎不爬行就不知道有什么導(dǎo)出鏈接),頁(yè)面成為權(quán)重只進(jìn)不出的黑洞。
連向這些URL的鏈接配合nofollow也不完美,和robots禁止類似,nofollow在Google的效果是這些URL沒有接收權(quán)重,權(quán)重卻也沒有被分配到其它鏈接上,所以權(quán)重同樣浪費(fèi)了。百度據(jù)稱支持nofollow,但權(quán)重怎么處理未知。
將這些URL鏈接放在Flash、JS里也沒有用,搜索引擎已經(jīng)可以爬行Flash、JS里的鏈接,而且估計(jì)以后越來(lái)越擅長(zhǎng)爬。很多SEO忽略了的一點(diǎn)是,JS中的鏈接不僅能被爬,也能傳遞權(quán)重,和正常連接一樣。
也可以將過濾條件鏈接做成AJAX形式,用戶點(diǎn)擊后不會(huì)訪問一個(gè)新的URL,還是在原來(lái)URL上,URL后面加了#,不會(huì)被當(dāng)成不同URL。和JS問題一樣,搜索引擎正在積極嘗試爬行、抓取AJAX里的內(nèi)容,這個(gè)方法也不保險(xiǎn)。
還一個(gè)方法是在頁(yè)面head部分加noindex+follow標(biāo)簽,意即本頁(yè)面不要索引,但跟蹤頁(yè)面上的鏈接。這樣可以解決復(fù)制內(nèi)容問題,也解決了權(quán)重黑洞問題(權(quán)重是可以隨著導(dǎo)出鏈接傳到其它頁(yè)面的),不能解決的是浪費(fèi)蜘蛛爬行時(shí)間問題,這些頁(yè)面還是要被蜘蛛爬行抓取的(然后才能看到頁(yè)面html里的noindex+follow標(biāo)簽),對(duì)某些網(wǎng)站來(lái)說(shuō),過濾頁(yè)面數(shù)量巨大,爬行了這些頁(yè)面,蜘蛛就沒足夠時(shí)間爬有用頁(yè)面了。
再一個(gè)可以考慮的方法是隱藏頁(yè)面(cloaking),也就是用程序檢測(cè)訪問者,是搜索引擎蜘蛛的話返回的頁(yè)面拿掉這些過濾條件鏈接,是用戶的話才返回正常的有過濾條件的頁(yè)面。這是一個(gè)比較理想的解決方法,唯一的問題是,可能被當(dāng)作作弊。搜索引擎常跟SEO講的判斷是否作弊的最高原則是:如果沒有搜索引擎,你會(huì)不會(huì)這么做?或者說(shuō),某種方法是否只是為了搜索引擎而采用?顯然,用cloaking隱藏不想被爬行的URL是為搜索引擎做的,不是為用戶做的。雖然這種情況下的cloaking目的是美好的,沒有惡意的,但風(fēng)險(xiǎn)是存在的,膽大的可試用。
還一個(gè)方法是使用canonical標(biāo)簽,最大問題是百度是否支持未知,而且canonical標(biāo)簽是對(duì)搜索引擎的建議,不是指令,也就是說(shuō)這個(gè)標(biāo)簽搜索引擎可能不遵守,等于沒用。另外,canonical標(biāo)簽的本意是指定規(guī)范化網(wǎng)址,過濾條件頁(yè)面是否適用有些存疑,畢竟,這些頁(yè)面上的內(nèi)容經(jīng)常是不同的。
目前比較好的方法之一是iframe+robots禁止。將過濾部分代碼放進(jìn)iframe,等于調(diào)用其它文件內(nèi)容,對(duì)搜索引擎來(lái)說(shuō),這部分內(nèi)容不屬于當(dāng)前頁(yè)面,也即隱藏了內(nèi)容。但不屬于當(dāng)前頁(yè)面不等于不存在,搜索引擎是可以發(fā)現(xiàn)iframe中的內(nèi)容和鏈接的,還是可能爬行這些URL,所以加robots禁止爬行。iframe中的內(nèi)容還是會(huì)有一些權(quán)重流失,但因?yàn)閕frame里的鏈接不是從當(dāng)前頁(yè)面分流權(quán)重,而只是從調(diào)用的那個(gè)文件分流,所以權(quán)重流失是比較少的。除了排版、瀏覽器兼容性之類的頭疼問題,iframe方法的一個(gè)潛在問題是被認(rèn)為作弊的風(fēng)險(xiǎn)?,F(xiàn)在搜索引擎一般不認(rèn)為iframe是作弊,很多廣告就是放在iframe中,但隱藏一堆鏈接和隱藏廣告有些微妙的區(qū)別?;氐剿阉饕媾袛嘧鞅椎目傇瓌t上,很難說(shuō)這不是專門為搜索引擎做的。記得Matt Cutts說(shuō)過,Google以后可能改變處理iframe的方式,他們還是希望在同一個(gè)頁(yè)面上看到普通用戶能看到的所有內(nèi)容。
總之,對(duì)這個(gè)現(xiàn)實(shí)、嚴(yán)重的問題,我目前沒有自己覺得完美的答案。當(dāng)然,不能完美解決不是就不能活了,不同網(wǎng)站SEO重點(diǎn)不同,具體問題具體分析,采用上述方法中的一種或幾種應(yīng)該可以解決主要問題。
而最最最大的問題還不是上述這些,而是有時(shí)候你想讓這些過濾頁(yè)面被爬行和收錄,這才是杯具的開始。以后再討論。
相關(guān)文章
URL優(yōu)化需要注意什么?URL優(yōu)化的幾個(gè)注意事項(xiàng)
在網(wǎng)站建設(shè)的初期,在對(duì)網(wǎng)站整體架構(gòu)和層次的搭建之后,我們應(yīng)該合理的再做好URL優(yōu)化的工作,那么URL優(yōu)化需要注意什么?下面小編就為大家介紹URL優(yōu)化的幾個(gè)注意事項(xiàng),來(lái)看看2016-12-30淺談網(wǎng)站URL的類型及SEO優(yōu)化點(diǎn)
無(wú)論是動(dòng)態(tài)還是所謂的靜態(tài)和偽靜態(tài)URL,網(wǎng)站的頁(yè)面地址設(shè)置一直是SEO人群們?cè)谝獾囊粋€(gè)重要方面,這里我們就來(lái)淺談網(wǎng)站URL的類型及SEO優(yōu)化點(diǎn),需要的朋友可以參考下2016-06-09網(wǎng)站URL路徑該怎么做才能起到優(yōu)化seo的作用?
網(wǎng)站URL路徑該怎么做才能起到優(yōu)化seo的作用?網(wǎng)站的url路徑對(duì)權(quán)重也很重要,優(yōu)化url可以將權(quán)重集中于一個(gè)主路徑上,進(jìn)而獲取更好的搜索引擎的權(quán)重,該怎么優(yōu)化url呢?請(qǐng)看2015-12-10SEO網(wǎng)站優(yōu)化中URL優(yōu)化在前端設(shè)計(jì)中的重要作用
網(wǎng)站在SEO中URL優(yōu)化十分重要,那怎么做呢?在前端設(shè)計(jì)中也要引起重視,看看該文是如何闡述的,希望可以幫助到有需要的朋友2014-01-13網(wǎng)站架構(gòu)與URL優(yōu)化中要注重的幾個(gè)原則小結(jié)
網(wǎng)站架構(gòu)與URL優(yōu)化中要注重的幾個(gè)原則小結(jié),做網(wǎng)站的朋友可以參考下。2010-12-24- 其實(shí)關(guān)于優(yōu)化URL這一塊,大家不管是自己寫的或者是看別人的,都基本了解的差不多。而且一些細(xì)節(jié)都可能或多或少的被一些站長(zhǎng)和seoer提到了。2010-05-23
網(wǎng)站優(yōu)化 關(guān)于網(wǎng)頁(yè)地址URL的約定規(guī)則
以下是在不同網(wǎng)站發(fā)現(xiàn)的三種最為常見的 URL 問題。如果你的站帶您有一個(gè)甚至更多的這類問題,看看解決方案,盡快修正吧。2009-12-13從URL靜態(tài)化與動(dòng)態(tài)化之爭(zhēng)談搜索引擎優(yōu)化技術(shù)(SEO)的學(xué)習(xí)
今天在IT茶館看到一張叫作SEO大局觀的圖,我在回復(fù)里只大了五個(gè)字,很好很強(qiáng)大。然后,接下來(lái)就開始有點(diǎn)擔(dān)心了,擔(dān)心很多看到這張圖的朋友會(huì)把這當(dāng)成一個(gè)公式或法則來(lái)學(xué)習(xí)2008-11-03網(wǎng)站URL路徑如何設(shè)置更有利于SEO優(yōu)化?網(wǎng)站URL路徑的優(yōu)化要從簡(jiǎn)
關(guān)于網(wǎng)站URL的路徑優(yōu)化,因?yàn)檫@算是比較基礎(chǔ)的知識(shí),但大多數(shù)朋友讓筆者診斷網(wǎng)站,不難看出很多SEO朋友都在基礎(chǔ)上出了問題,尤其是在網(wǎng)站上線的前期,做好網(wǎng)站URL的路徑優(yōu)2017-02-15