Google員工揭密防止網(wǎng)站作弊技術(shù)
更新時間:2006年12月14日 00:00:00 作者:
Google 研究員 吳軍
自從有了搜索引擎,就有了針對搜索引擎網(wǎng)頁排名的作弊(SPAM)。以至于用戶發(fā)現(xiàn)在搜索引擎中排名靠前的網(wǎng)頁不一定就是高質(zhì)量的,用句俗話說,閃光的不一定是金子。
搜索引擎的作弊,雖然方法很多,目的只有一個,就是采用不正當手
段提高自己網(wǎng)頁的排名。早期最常見的作弊方法是重復關(guān)鍵詞。比如一個賣數(shù)碼相機的網(wǎng)站,重復地羅列各種數(shù)碼相機的品牌,如尼康、佳能和柯達等等。為了不讓讀者看到眾多討厭的關(guān)鍵詞,聰明一點的作弊者常用很小的字體和與背景相同的顏色來掩蓋這些關(guān)鍵詞。其實,這種做法很容易被搜索引擎發(fā)現(xiàn)并糾正。
在有了網(wǎng)頁排名(page rank)以后,作弊者發(fā)現(xiàn)一個網(wǎng)頁被引用的連接越多,排名就可能越靠前,于是就有了專門賣鏈接和買鏈接的生意。比如,有人自己創(chuàng)建成百上千個網(wǎng)站,這些網(wǎng)站上沒有實質(zhì)的內(nèi)容,只有到他們的客戶網(wǎng)站的連接。這種做法比重復關(guān)鍵詞要高明得多,但是還是不太難被發(fā)現(xiàn)。因為那些所謂幫別人提高排名的網(wǎng)站,為了維持生意需要大量地賣鏈接,所以很容易露馬腳。(這就如同造假鈔票,當某一種假鈔票的流通量相當大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我們就不在這里一一贅述了。
幾年前,我加入Google做的第一件事就是消除網(wǎng)絡(luò)作弊。在Google最早發(fā)現(xiàn)搜索引擎作弊的是Matt Cutts,他在我加入Google前幾個月開始研究這個問題,后來,辛格,馬丁和我先后加入進來。我們經(jīng)過幾個月的努力,清除了一半的作弊者。(當然,以后抓作弊的效率就不會有這么高了。)其中一部分網(wǎng)站從此"痛改前非",但是還是有很多網(wǎng)站換一種作弊方法繼續(xù)作弊,因此,抓作弊成了一種長期的貓捉老鼠的游戲。雖然至今還沒有一個一勞永逸地解決作弊問題的方法,但是,Google基本做到了對于任何已知的作弊方法,在一定時間內(nèi)發(fā)現(xiàn)并清除它,從而總是將作弊的網(wǎng)站的數(shù)量控制在一個很小的比例范圍。
抓作弊的方法很像信號處理中的去噪音的辦法。學過信息論和有信號處理經(jīng)驗的讀者可能知道這么一個事實,我們?nèi)绻诎l(fā)動機很吵的汽車里用手機打電話,對方可能聽不清;但是如果我們知道了汽車發(fā)動機的頻率,我們可以加上一個和發(fā)動機噪音相反的信號,很容易地消除發(fā)動機的噪音,這樣,收話人可以完全聽不到汽車的噪音。事實上,現(xiàn)在一些高端的手機已經(jīng)有了這種檢測和消除噪音的功能。消除噪音的流程可以概括如下:

在圖中,原始的信號混入了噪音,在數(shù)學上相當于兩個信號做卷積。噪音消除的過程是一個解卷積的過程。這在信號處理中并不是什么難題。因為第一,汽車發(fā)動機的頻率是固定的,第二,這個頻率的噪音重復出現(xiàn),只要采集幾秒鐘的信號進行處理就能做到。從廣義上講,只要噪音不是完全隨機的、并且前后有相關(guān)性,就可以檢測到并且消除。(事實上,完全隨機不相關(guān)的高斯白噪音是很難消除的。)
搜索引擎的作弊者所作的事,就如同在手機信號中加入了噪音,使得搜索結(jié)果的排名完全亂了。但是,這種人為加入的噪音并不難消除,因為作弊者的方法不可能是隨機的(否則就無法提高排名了)。而且,作弊者也不可能是一天換一種方法,即作弊方法是時間相關(guān)的。因此,搞搜索引擎排名算法的人,可以在搜集一段時間的作弊信息后,將作弊者抓出來,還原原有的排名。當然這個過程需要時間,就如同采集汽車發(fā)動機噪音需要時間一樣,在這段時間內(nèi),作弊者可能會嘗到些甜頭。因此,有些人看到自己的網(wǎng)站經(jīng)過所謂的優(yōu)化(其實是作弊),排名在短期內(nèi)靠前了,以為這種所謂的優(yōu)化是有效的。但是,不久就會發(fā)現(xiàn)排名掉下去了很多。這倒不是搜索引擎以前寬容,現(xiàn)在嚴厲了,而是說明抓作弊需要一定的時間,以前只是還沒有檢測到這些作弊的網(wǎng)站而已。
還要強調(diào)一點,Google抓作弊和恢復網(wǎng)站原有排名的過程完全是自動的(并沒有個人的好惡),就如同手機消除噪音是自動的一樣。一個網(wǎng)站要想長期排名靠前,就需要把內(nèi)容做好,同時要和那些作弊網(wǎng)站劃清界限。
本文來自Google黑板報
自從有了搜索引擎,就有了針對搜索引擎網(wǎng)頁排名的作弊(SPAM)。以至于用戶發(fā)現(xiàn)在搜索引擎中排名靠前的網(wǎng)頁不一定就是高質(zhì)量的,用句俗話說,閃光的不一定是金子。
搜索引擎的作弊,雖然方法很多,目的只有一個,就是采用不正當手
段提高自己網(wǎng)頁的排名。早期最常見的作弊方法是重復關(guān)鍵詞。比如一個賣數(shù)碼相機的網(wǎng)站,重復地羅列各種數(shù)碼相機的品牌,如尼康、佳能和柯達等等。為了不讓讀者看到眾多討厭的關(guān)鍵詞,聰明一點的作弊者常用很小的字體和與背景相同的顏色來掩蓋這些關(guān)鍵詞。其實,這種做法很容易被搜索引擎發(fā)現(xiàn)并糾正。
在有了網(wǎng)頁排名(page rank)以后,作弊者發(fā)現(xiàn)一個網(wǎng)頁被引用的連接越多,排名就可能越靠前,于是就有了專門賣鏈接和買鏈接的生意。比如,有人自己創(chuàng)建成百上千個網(wǎng)站,這些網(wǎng)站上沒有實質(zhì)的內(nèi)容,只有到他們的客戶網(wǎng)站的連接。這種做法比重復關(guān)鍵詞要高明得多,但是還是不太難被發(fā)現(xiàn)。因為那些所謂幫別人提高排名的網(wǎng)站,為了維持生意需要大量地賣鏈接,所以很容易露馬腳。(這就如同造假鈔票,當某一種假鈔票的流通量相當大以后,就容易找到根源了。)再以后,又有了形形色色的作弊方式,我們就不在這里一一贅述了。
幾年前,我加入Google做的第一件事就是消除網(wǎng)絡(luò)作弊。在Google最早發(fā)現(xiàn)搜索引擎作弊的是Matt Cutts,他在我加入Google前幾個月開始研究這個問題,后來,辛格,馬丁和我先后加入進來。我們經(jīng)過幾個月的努力,清除了一半的作弊者。(當然,以后抓作弊的效率就不會有這么高了。)其中一部分網(wǎng)站從此"痛改前非",但是還是有很多網(wǎng)站換一種作弊方法繼續(xù)作弊,因此,抓作弊成了一種長期的貓捉老鼠的游戲。雖然至今還沒有一個一勞永逸地解決作弊問題的方法,但是,Google基本做到了對于任何已知的作弊方法,在一定時間內(nèi)發(fā)現(xiàn)并清除它,從而總是將作弊的網(wǎng)站的數(shù)量控制在一個很小的比例范圍。
抓作弊的方法很像信號處理中的去噪音的辦法。學過信息論和有信號處理經(jīng)驗的讀者可能知道這么一個事實,我們?nèi)绻诎l(fā)動機很吵的汽車里用手機打電話,對方可能聽不清;但是如果我們知道了汽車發(fā)動機的頻率,我們可以加上一個和發(fā)動機噪音相反的信號,很容易地消除發(fā)動機的噪音,這樣,收話人可以完全聽不到汽車的噪音。事實上,現(xiàn)在一些高端的手機已經(jīng)有了這種檢測和消除噪音的功能。消除噪音的流程可以概括如下:

在圖中,原始的信號混入了噪音,在數(shù)學上相當于兩個信號做卷積。噪音消除的過程是一個解卷積的過程。這在信號處理中并不是什么難題。因為第一,汽車發(fā)動機的頻率是固定的,第二,這個頻率的噪音重復出現(xiàn),只要采集幾秒鐘的信號進行處理就能做到。從廣義上講,只要噪音不是完全隨機的、并且前后有相關(guān)性,就可以檢測到并且消除。(事實上,完全隨機不相關(guān)的高斯白噪音是很難消除的。)
搜索引擎的作弊者所作的事,就如同在手機信號中加入了噪音,使得搜索結(jié)果的排名完全亂了。但是,這種人為加入的噪音并不難消除,因為作弊者的方法不可能是隨機的(否則就無法提高排名了)。而且,作弊者也不可能是一天換一種方法,即作弊方法是時間相關(guān)的。因此,搞搜索引擎排名算法的人,可以在搜集一段時間的作弊信息后,將作弊者抓出來,還原原有的排名。當然這個過程需要時間,就如同采集汽車發(fā)動機噪音需要時間一樣,在這段時間內(nèi),作弊者可能會嘗到些甜頭。因此,有些人看到自己的網(wǎng)站經(jīng)過所謂的優(yōu)化(其實是作弊),排名在短期內(nèi)靠前了,以為這種所謂的優(yōu)化是有效的。但是,不久就會發(fā)現(xiàn)排名掉下去了很多。這倒不是搜索引擎以前寬容,現(xiàn)在嚴厲了,而是說明抓作弊需要一定的時間,以前只是還沒有檢測到這些作弊的網(wǎng)站而已。
還要強調(diào)一點,Google抓作弊和恢復網(wǎng)站原有排名的過程完全是自動的(并沒有個人的好惡),就如同手機消除噪音是自動的一樣。一個網(wǎng)站要想長期排名靠前,就需要把內(nèi)容做好,同時要和那些作弊網(wǎng)站劃清界限。
本文來自Google黑板報
相關(guān)文章
分享經(jīng)驗:我從百度來30萬IP的經(jīng)驗
這篇文章主要介紹了分享經(jīng)驗:我從百度來30萬IP的經(jīng)驗,需要的朋友可以參考下2006-09-09自主創(chuàng)業(yè):網(wǎng)上掙錢的中國站長們看過來
自主創(chuàng)業(yè):網(wǎng)上掙錢的中國站長們看過來...2007-04-042007-2008購買網(wǎng)站應注意的幾個問題小結(jié)
馬上進入2008年,有很多有錢的人都喜歡買個網(wǎng)站來運營。 從站長網(wǎng)等一些大站也看得出來網(wǎng)站的交易量比以前大大增加。 本人這段時間也曾交易過幾個網(wǎng)站算是有那么點經(jīng)驗。2007-12-12google優(yōu)化圣經(jīng)做網(wǎng)站必備
他有一篇非常著名的關(guān)于Google排名優(yōu)化的文章,標題是”十二個月內(nèi),僅僅依靠Google打造成功網(wǎng)站“。2008-07-07網(wǎng)站結(jié)構(gòu)和網(wǎng)站優(yōu)化關(guān)系分析
一個網(wǎng)站的結(jié)構(gòu)代表著這個網(wǎng)站性質(zhì),每個行業(yè)里都有獨特的結(jié)構(gòu)模式。政府和機構(gòu)性質(zhì)的網(wǎng)站,簡單明了,突出重點,不需要過多的美化工作,網(wǎng)站頭部通常設(shè)置一個通欄LOGO,以代表形象。2008-10-10