做網(wǎng)站要主要的百度分詞技術(shù)
更新時(shí)間:2008年06月12日 19:55:56 作者:
百度分詞一直被seoer們研究的話題,看完這篇文章你就好發(fā)現(xiàn)不錯(cuò),作者的目的就一個(gè)宣傳自己的站,并說(shuō)出一點(diǎn)技巧,我們累積多了,水平也就慢慢高了
百度自稱是全球最大中文搜索引擎,最了解國(guó)內(nèi)網(wǎng)民的搜索習(xí)慣,做為中國(guó)搜索引擎的老大,很多草根站長(zhǎng)一直在研究的它的搜索技術(shù)和排名算法,還有不少站長(zhǎng)兄弟姐姐還要靠它的流量吃飯,為此草根網(wǎng)站的站長(zhǎng)們對(duì)它是又愛又恨,百度能帶來(lái)很大的流量,又會(huì)無(wú)情的K站或降權(quán)。
好的,那咱們說(shuō)說(shuō)百度的分詞技術(shù),可能小弟有說(shuō)的不對(duì)地方,請(qǐng)大家拍磚頭,希望大家共同進(jìn)步。沒有研究百度分詞前不明白百度為什么比google強(qiáng)大.其實(shí)分詞也就是切詞,百度是否拿來(lái)一句中文字符串拿來(lái)隨便切一下呢,當(dāng)然不會(huì)。那么怎么才滿足被切割的條件呢?通過(guò)下面的實(shí)驗(yàn)就會(huì)發(fā)現(xiàn)如果字符串只包含小于等于3個(gè)中文字符的話,那就保留不動(dòng),比如:"牽引器"這個(gè)詞,前提是一個(gè)完整的詞,百度是不會(huì)切分的,當(dāng)字符串長(zhǎng)度大于4個(gè)中文字符的時(shí)候,百度的分詞程序就會(huì)啟動(dòng)了。例如"牽引器價(jià)格",看看返回結(jié)果中標(biāo)為紅字的地方,不難看出來(lái),查詢已經(jīng)被切割成“牽引器”,“價(jià)格”兩個(gè)單詞了,再試著換一個(gè)詞。例如:我們來(lái)看"衡水牽引器",百度里提交查詢一下,發(fā)現(xiàn)標(biāo)紅的關(guān)鍵字都是每一個(gè)是"牽引器","衡水",連續(xù)出現(xiàn)的情況,可以看到將"牽引器"與"衡水"切分成兩個(gè)詞,如果我們搜"衡水助康醫(yī)療器械"呢,發(fā)現(xiàn)標(biāo)題是沒有,網(wǎng)頁(yè)內(nèi)容比較完整是"衡水助康醫(yī)療器械",可能是這個(gè)網(wǎng)站還沒收錄的原故,這個(gè)長(zhǎng)尾詞被切成了"衡水"/"康醫(yī)療器械".
那現(xiàn)我們?cè)趤?lái)研究一下百度是分詞算法,通過(guò)幾年的發(fā)展,百度的分詞算法已經(jīng)算是相當(dāng)成熟了,這其中也少不了SEOER 的功勞,有一位SEOER的前輩說(shuō)過(guò):"百度的算法有簡(jiǎn)單的有復(fù)雜的,有正向最大匹配,反向最大匹配,雙向最大匹配,語(yǔ)言模型方法,最短路徑算法等等,有興趣的可以用GOOGLE去搜索一下以增加理解?!白屛覀兛偨Y(jié)一下吧,這里面也有我個(gè)人的猜測(cè), 百度擁有一個(gè)強(qiáng)大的詞匯數(shù)據(jù)庫(kù),里面有我們通用所用的各種詞語(yǔ)比如"人名,地名,產(chǎn)品的名稱",舉個(gè)例子"王元哲","衡水","牽引器",這些都是詞庫(kù)中有的,在切詞時(shí)將專有名稱切出,如"助康"這個(gè)詞,詞庫(kù)中沒有,下面的采用雙向最大匹配分詞算法,假如正向和反向匹配分詞結(jié)果一致當(dāng)然最好,就可直接輸出即可;如果兩者不一致,正向匹配一種結(jié)果,反向匹配一種結(jié)果.
百度一直自稱是全球最大中文搜索引擎,但分詞技術(shù)也并無(wú)特殊,也許就是因?yàn)榘俣葥碛幸粋€(gè)超大的專用詞典,這個(gè)專用詞典登錄了人名(比如壓濾機(jī)),廠家名稱(比如壓濾機(jī)生產(chǎn)廠),部分地名(比如阜城等),網(wǎng)址(http://www.xiaoshuo8.net/),并且這個(gè)詞典在不斷的擴(kuò)充一些新詞,一些新詞不斷的被收錄,這就比google強(qiáng)大的一個(gè)方面,google在于分詞來(lái)說(shuō),及詞庫(kù)明顯比不上百度,這正是google本身要加強(qiáng)的地方.
好的,那咱們說(shuō)說(shuō)百度的分詞技術(shù),可能小弟有說(shuō)的不對(duì)地方,請(qǐng)大家拍磚頭,希望大家共同進(jìn)步。沒有研究百度分詞前不明白百度為什么比google強(qiáng)大.其實(shí)分詞也就是切詞,百度是否拿來(lái)一句中文字符串拿來(lái)隨便切一下呢,當(dāng)然不會(huì)。那么怎么才滿足被切割的條件呢?通過(guò)下面的實(shí)驗(yàn)就會(huì)發(fā)現(xiàn)如果字符串只包含小于等于3個(gè)中文字符的話,那就保留不動(dòng),比如:"牽引器"這個(gè)詞,前提是一個(gè)完整的詞,百度是不會(huì)切分的,當(dāng)字符串長(zhǎng)度大于4個(gè)中文字符的時(shí)候,百度的分詞程序就會(huì)啟動(dòng)了。例如"牽引器價(jià)格",看看返回結(jié)果中標(biāo)為紅字的地方,不難看出來(lái),查詢已經(jīng)被切割成“牽引器”,“價(jià)格”兩個(gè)單詞了,再試著換一個(gè)詞。例如:我們來(lái)看"衡水牽引器",百度里提交查詢一下,發(fā)現(xiàn)標(biāo)紅的關(guān)鍵字都是每一個(gè)是"牽引器","衡水",連續(xù)出現(xiàn)的情況,可以看到將"牽引器"與"衡水"切分成兩個(gè)詞,如果我們搜"衡水助康醫(yī)療器械"呢,發(fā)現(xiàn)標(biāo)題是沒有,網(wǎng)頁(yè)內(nèi)容比較完整是"衡水助康醫(yī)療器械",可能是這個(gè)網(wǎng)站還沒收錄的原故,這個(gè)長(zhǎng)尾詞被切成了"衡水"/"康醫(yī)療器械".
那現(xiàn)我們?cè)趤?lái)研究一下百度是分詞算法,通過(guò)幾年的發(fā)展,百度的分詞算法已經(jīng)算是相當(dāng)成熟了,這其中也少不了SEOER 的功勞,有一位SEOER的前輩說(shuō)過(guò):"百度的算法有簡(jiǎn)單的有復(fù)雜的,有正向最大匹配,反向最大匹配,雙向最大匹配,語(yǔ)言模型方法,最短路徑算法等等,有興趣的可以用GOOGLE去搜索一下以增加理解?!白屛覀兛偨Y(jié)一下吧,這里面也有我個(gè)人的猜測(cè), 百度擁有一個(gè)強(qiáng)大的詞匯數(shù)據(jù)庫(kù),里面有我們通用所用的各種詞語(yǔ)比如"人名,地名,產(chǎn)品的名稱",舉個(gè)例子"王元哲","衡水","牽引器",這些都是詞庫(kù)中有的,在切詞時(shí)將專有名稱切出,如"助康"這個(gè)詞,詞庫(kù)中沒有,下面的采用雙向最大匹配分詞算法,假如正向和反向匹配分詞結(jié)果一致當(dāng)然最好,就可直接輸出即可;如果兩者不一致,正向匹配一種結(jié)果,反向匹配一種結(jié)果.
百度一直自稱是全球最大中文搜索引擎,但分詞技術(shù)也并無(wú)特殊,也許就是因?yàn)榘俣葥碛幸粋€(gè)超大的專用詞典,這個(gè)專用詞典登錄了人名(比如壓濾機(jī)),廠家名稱(比如壓濾機(jī)生產(chǎn)廠),部分地名(比如阜城等),網(wǎng)址(http://www.xiaoshuo8.net/),并且這個(gè)詞典在不斷的擴(kuò)充一些新詞,一些新詞不斷的被收錄,這就比google強(qiáng)大的一個(gè)方面,google在于分詞來(lái)說(shuō),及詞庫(kù)明顯比不上百度,這正是google本身要加強(qiáng)的地方.
相關(guān)文章
自動(dòng)發(fā)帖機(jī)的斗爭(zhēng)過(guò)程防止垃圾評(píng)論的幾個(gè)方法總結(jié)
所謂魔高一尺,道高一丈。機(jī)器發(fā)帖和反機(jī)器發(fā)帖一直都是場(chǎng)硝煙彌漫的豪華戰(zhàn)爭(zhēng)。2008-08-08解決Google Adsense廣告只顯示英文的問(wèn)題
解決Google Adsense廣告只顯示英文的問(wèn)題...2006-12-12[資料]總結(jié)幾個(gè)產(chǎn)生上萬(wàn)流量的方法
[資料]總結(jié)幾個(gè)產(chǎn)生上萬(wàn)流量的方法...2007-05-05網(wǎng)站關(guān)鍵字設(shè)置技巧放松了比較不錯(cuò)的關(guān)鍵詞設(shè)置方法
網(wǎng)站關(guān)鍵字設(shè)置技巧放松了比較不錯(cuò)的關(guān)鍵詞設(shè)置方法...2007-11-11比較詳細(xì)的分析下載站的發(fā)展注意事項(xiàng)
比較詳細(xì)的分析下載站的發(fā)展注意事項(xiàng)...2007-11-11站長(zhǎng)必備的最齊全的301轉(zhuǎn)向代碼合集
自腳本之家上次整理的301代碼轉(zhuǎn)向以后發(fā)現(xiàn)這個(gè)是最齊全的301轉(zhuǎn)向代碼2008-09-09