科普:搜索引擎的基本工作原理

那么問題來了,什么是關鍵詞。
英文來說,比如 this is a book,中文,這是一本書。
英文很自然是四個單詞,空格是天然的分詞符,中文呢?你不能把一句話當作關鍵詞吧(如果把一句話當作關鍵詞,那么你搜索其中部分信息的時候,是無法索引命中的,比如搜索一本書,就搜索不出來了,而這顯然是不符合搜索引擎訴求的)。所以要分詞。
最開始,最簡單的思路是,每個字都切開,這個以前叫字索引,每個字建立索引,并標注位置,如果用戶搜索一個關鍵詞,也是把關鍵詞拆成字來搜索再組合結果,但這樣問題就來了。
比如搜索關鍵詞 “海鮮”的時候,會出現(xiàn)結果,上海鮮花,這顯然不是應該的搜索結果。
比如搜索關鍵詞 “和服”的時候,會出現(xiàn)結果,交換機和服務器。
這些都是蠻荒期的google也不能幸免的問題。
到后來有個梗,別笑,這些都是血淚梗,半夜電話過來,說網(wǎng)監(jiān)通過搜索發(fā)現(xiàn)你社區(qū)有淫穢內(nèi)容要求必須刪除,否則就關閉你的網(wǎng)站,夜半驚醒認真排查,百思不得其解,苦苦哀求提供信息線索,最后發(fā)現(xiàn),有人發(fā)了一條小廣告,“求購二十四口交換機” 。 還有,涉嫌政治敏感,查到最后 “提供三臺獨立服務器”, 看出其中敏感詞了沒?你說冤不冤。 這兩個故事可能并不是真的,因為都是網(wǎng)上看到的,但是我想說,類似這樣的事情真的有,并非都是空穴來風。
所以,分詞,是亞洲很多語言需要額外處理的事情,而西方語言不存在的問題。
但分詞不是說說那么簡單,比如幾點,1:如何識別人名?2、互聯(lián)網(wǎng)新詞如何識別?比如 “不明覺厲”。3、中英混排的坑,比如QQ表情。
做一個分詞系統(tǒng),說到底也不難,但是要做一個自動學習,與時俱進,又能高效率靈活的分詞引擎,還是很有技術難度的。 當然,這方面我不是專家,不敢妄言了。
現(xiàn)在機器學習技術發(fā)達了,特別是google在深度學習領域擁有領先優(yōu)勢,以前很多通過人工做標定,做分類的工作可以交給算法完成,從某種意義來說,本地化的工作可以讓機器學習去完成;未來,也許深度學習技術可以自己學習掌握本地化的技巧。 但我想說兩點,第一,從搜索引擎發(fā)展歷史看,在深度學習技術還沒成熟的情況下,本地化的工作是非常重要的,也是很重要的決定競爭成敗的要素;第二,即便現(xiàn)在深度學習已經(jīng)很強大,基于當?shù)卣Z言的人工參與,標定,測試,反饋,一些本地化的工作依然對深度學習的效率和效果擁有不可替代的作用。
索引系統(tǒng)除了分詞之外,還有一些要點,比如實時索引,因為一次索引庫的更新是個大動靜,一般網(wǎng)站運營者知道,自己網(wǎng)站內(nèi)容更新后,需要等索引庫下一次更新才能看到效果,而且索引庫針對不同權重的網(wǎng)站內(nèi)容,更新的頻次也不太一樣。 但諸如一些高優(yōu)先的資訊網(wǎng)站,以及新聞搜索,索引庫是可以做到近似實時索引的,所以我們在新聞搜索里,幾分鐘前的信息就已經(jīng)可以搜索到了。
我以前經(jīng)常吐槽一個事情,我在百度空間發(fā)表的文章,每次都是google率先索引收錄,當時他們的解釋是,猜測是因為很多人通過google閱讀器訂閱我的博客,而google閱讀器很可能是google快速索引的入口。(然并卵,百度空間已經(jīng)沒有了,google閱讀器也沒有了。)
索引系統(tǒng)的權值體系,是所有SEOER們最關心的問題,他們經(jīng)常通過不同方式組合策略,觀察搜索引擎的收錄,排名,來路情況,然后通過對比分析整理出相關的策略,這玩意說出來可以開很長一篇了,但今天就不提了。
但我說一個事實,很多外面的公司,做SEO的,會誤認為百度里面的人熟悉這里的門道和規(guī)律,很多人高價去挖百度的搜索產(chǎn)品經(jīng)理和技術工程師去做SEO,結果,呵呵,呵呵。 而外面那些草根創(chuàng)業(yè)者,有些善于此道的,真的比百度的人還清楚,搜索權值的影響關系,和更新頻次等等,比如前面說到的,身價幾十億的那個80后創(chuàng)業(yè)者。
基于結果反推策略,比身在其中卻不識全局的參與者,更能找到系統(tǒng)的關鍵點,有意思不。
3、查詢展現(xiàn)
用戶在瀏覽器或者在手機客戶端輸入一個關鍵詞,或者幾個關鍵詞,甚至一句話,這個在服務端,應答程序獲取后處理步驟如下
第一步,會檢查最近時間有沒有人搜索過同樣的關鍵詞,如果存在這樣的緩存,最快的處理是將這塊緩存提供給你,這樣查詢效率最高,對后端負載壓力最低。
第二步,發(fā)現(xiàn)這個輸入查詢最近沒有搜索,或者有其他條件的原因必須更新結果,那么會將這個用戶輸入的詞,進行分詞,沒錯,如果不止一個關鍵詞,或者是一句話的情況下,應答程序會又一次分詞,將搜索的查詢拆成幾個不同的關鍵詞。
第三步,將切分后的關鍵詞分發(fā)到查詢系統(tǒng)中,查詢系統(tǒng)會去索引庫查詢,索引庫是個龐大的分布式系統(tǒng),先分析這個關鍵詞屬于哪一塊哪一臺服務器,索引是一種有序的數(shù)據(jù)組合,我們用可以用近似二分法的方式思考,不管數(shù)據(jù)規(guī)模多大,你用二分法去查找一個結果,查詢頻次是log2(N),這個就保證了海量數(shù)據(jù)下,查詢一個關鍵詞是非常快非??斓?。 當然,實際情況會比二分法復雜很多,這樣說比較容易理解而已,再復雜些不是我不告訴大家,是我自己都不是很清楚呢。
第四步,不同關鍵詞的查詢結果(只是按權值排序的部分頂部結果,絕對不是全部結果),基于權值倒序,會再匯總在一起,然后把共同命中的部分反饋回來,并做最后的權值排序。
記住,搜索引擎絕對不會返回所有結果,這個開銷誰都受不了,百度也不行,google也不行,翻頁都是有限制的。
再記住,如果你多個關鍵詞里有多個不同品類冷門詞,搜索引擎有可能會舍棄其中一個冷門詞,因為匯總數(shù)據(jù)很可能不包含共同結果。搜索技術不要神話,這樣的范例偶爾會出現(xiàn)。
這是三大部分,多說一點,其實還有第四部分。
4、用戶點擊行為采集和反饋部分
基于用戶的翻頁,點擊分布,對搜索結果的優(yōu)劣做判定,并對權值做調(diào)整,但這個早期搜索引擎是沒有的,后面才有,所以暫時不列為必備的三大塊。
此外,一些對搜索優(yōu)化的機器學習策略,對易混詞識別,同音詞識別等等,相當部分也都基于用戶行為反饋進行,這是后話,這里不展開。
關于第四部分,我以前說過一個詞,點擊提權,我說這個詞價值千金,我猜很多人并沒理解。沒理解就好,要不我要被一些同行罵死了。
以上是單指搜索引擎的工作原理,和一些技術邏輯,當然,只是入門級的解讀,畢竟再深入就不是我能講解的了。
但搜索引擎的本地化,并不局限于搜索技術的本地化。
百度的強大,不只是搜索技術,當然有些人會說百度沒有搜索技術,這種言論我就不爭論了,我不試圖改變?nèi)魏稳说挠^點,我只列一些事實而已。
百度的強大還來自于兩大塊,第一是內(nèi)容護城河,第二是入口把控。
前者是百度貼吧,百度mp3,百度知道,百度百科,百度文庫
后者是hao123和百度聯(lián)盟。
這兩塊都是本地化,google進中國的時候,在這兩塊都有動作。
投資天涯,收購265,以及大力發(fā)展google聯(lián)盟,這些都是本地化。
此外,重申一下,百度全家桶的出現(xiàn)以及,百度全家桶和hao123的捆綁,是360崛起之后的事情,hao123從百度收購到360崛起之前,一直風平浪靜的沒做任何推廣和捆綁,從歷史事實而言,請勿將本地化等同于流氓化。
作者:江西SEO曾慶平(www.qingpingseo.com)
版權所有。轉載時必須以鏈接形式注明作者和原始出處。請大家尊重原創(chuàng),珍惜別人的汗水!
相關文章
寶塔面板屏蔽 Censys的配置方法(防止源站 IP 泄露)
Censys 搜索引擎很強大,Censys 每天都會掃描 IPv4 地址空間,以搜索所有聯(lián)網(wǎng)設備并收集相關的信息,并返回一份有關資源(如設備、網(wǎng)站和證書)配置和部署信息的總體報告2025-03-01使用高防服務器或者高防CDN后為什么還會出現(xiàn)源站IP被打
近來站長們應該基本都遇到過 DDOS 攻擊,特別是 CC,如果放任不管,會導致服務器資源緊張,導致用戶無法正常訪問,有時間就算接入了高防服務器,源站 IP 還是被打,網(wǎng)站打不2025-03-01- 當我們談論繞過CDN查找真實IP的時候,不得不提到SSL證書,它確實是我們尋找真實IP的一大利器,至于為什么SSL證書會導致源站IP泄露?很多人或許沒有深入了解這個問題,目前好2025-03-01
- 默認CloudFlare都是讓大家通過dns接入,但大家因為已經(jīng)習慣了dnspod等解析方式,那么cname就比較方便大家使用了,下面為大家分享一下cname的接入方法,需要的朋友可以參考下2025-02-20
- 是否需要高防服務器呢,最近很多網(wǎng)站遭受ddos與cc攻擊,雙11之際旅途云特為大家提供了性價比更高的高防服務器套餐需要的朋友可以咨詢2023-11-12
華為云優(yōu)惠券在哪里獲得?華為云優(yōu)惠券領取
在本篇文章里小編給大家整理的是關于華為云優(yōu)惠券領取的方法和入口,有此需要的朋友們可以領取下,希望對你有幫助。2020-03-12華為云優(yōu)惠券怎么用?華為云優(yōu)惠券使用方法
在本篇文章里小編給大家整理了關于華為云優(yōu)惠券使用方法和詳細步驟,有興趣的朋友們可以學習下。2020-03-12華為云優(yōu)惠券在哪能找到?華為云優(yōu)惠券領取教程
我們給大家?guī)砣绾斡脙?yōu)惠的方法購買華為云主機的方法以及給大家分享華為云的優(yōu)惠券和代金券,希望能夠幫助到大家。2020-02-26進行https證書申請安裝和tomcat https證書安裝的方法
對于https證書,想必大家已經(jīng)非常熟悉了,這是一種可以保護網(wǎng)站安全的證書,以https開頭的網(wǎng)站都是具有這一證書的網(wǎng)站。今天給大家介紹怎樣進行https證書申請安裝和tomcat2019-10-31- 庫店創(chuàng)始人鄭劍豪,原寺庫商城總經(jīng)理,2010年聚劃算創(chuàng)始團隊成員,5年時間幫助寺庫成功上市。庫店,是美國納斯達克上市企業(yè)寺庫旗下高品質(zhì)社交電商平臺,獲京東與LVMH集團旗下基2018-11-01