科普：搜索引擎的基本工作原理

發(fā)布時間：2016-12-22 16:44:06 作者：佚名

我要評論

今天江西SEO曾慶平寫篇科普文，講講搜索引擎的技術機理和市場競爭的一些特點。當然，作為從事或有興趣從事流量運營的朋友，是可以用另一個角度去理解本文

那么問題來了，什么是關鍵詞。

英文來說，比如 this is a book，中文，這是一本書。

英文很自然是四個單詞，空格是天然的分詞符，中文呢？你不能把一句話當作關鍵詞吧（如果把一句話當作關鍵詞，那么你搜索其中部分信息的時候，是無法索引命中的，比如搜索一本書，就搜索不出來了，而這顯然是不符合搜索引擎訴求的）。所以要分詞。

最開始，最簡單的思路是，每個字都切開，這個以前叫字索引，每個字建立索引，并標注位置，如果用戶搜索一個關鍵詞，也是把關鍵詞拆成字來搜索再組合結果，但這樣問題就來了。

比如搜索關鍵詞 “海鮮”的時候，會出現結果，上海鮮花，這顯然不是應該的搜索結果。

比如搜索關鍵詞 “和服”的時候，會出現結果，交換機和服務器。

這些都是蠻荒期的google也不能幸免的問題。

到后來有個梗，別笑，這些都是血淚梗，半夜電話過來，說網監(jiān)通過搜索發(fā)現你社區(qū)有淫穢內容要求必須刪除，否則就關閉你的網站，夜半驚醒認真排查，百思不得其解，苦苦哀求提供信息線索，最后發(fā)現，有人發(fā)了一條小廣告，“求購二十四口交換機” 。還有，涉嫌政治敏感，查到最后 “提供三臺獨立服務器”，看出其中敏感詞了沒？你說冤不冤。這兩個故事可能并不是真的，因為都是網上看到的，但是我想說，類似這樣的事情真的有，并非都是空穴來風。

所以，分詞，是亞洲很多語言需要額外處理的事情，而西方語言不存在的問題。

但分詞不是說說那么簡單，比如幾點，1：如何識別人名？2、互聯(lián)網新詞如何識別？比如 “不明覺厲”。3、中英混排的坑，比如QQ表情。

做一個分詞系統(tǒng)，說到底也不難，但是要做一個自動學習，與時俱進，又能高效率靈活的分詞引擎，還是很有技術難度的。當然，這方面我不是專家，不敢妄言了。

現在機器學習技術發(fā)達了，特別是google在深度學習領域擁有領先優(yōu)勢，以前很多通過人工做標定，做分類的工作可以交給算法完成，從某種意義來說，本地化的工作可以讓機器學習去完成；未來，也許深度學習技術可以自己學習掌握本地化的技巧。但我想說兩點，第一，從搜索引擎發(fā)展歷史看，在深度學習技術還沒成熟的情況下，本地化的工作是非常重要的，也是很重要的決定競爭成敗的要素；第二，即便現在深度學習已經很強大，基于當地語言的人工參與，標定，測試，反饋，一些本地化的工作依然對深度學習的效率和效果擁有不可替代的作用。

索引系統(tǒng)除了分詞之外，還有一些要點，比如實時索引，因為一次索引庫的更新是個大動靜，一般網站運營者知道，自己網站內容更新后，需要等索引庫下一次更新才能看到效果，而且索引庫針對不同權重的網站內容，更新的頻次也不太一樣。但諸如一些高優(yōu)先的資訊網站，以及新聞搜索，索引庫是可以做到近似實時索引的，所以我們在新聞搜索里，幾分鐘前的信息就已經可以搜索到了。

我以前經常吐槽一個事情，我在百度空間發(fā)表的文章，每次都是google率先索引收錄，當時他們的解釋是，猜測是因為很多人通過google閱讀器訂閱我的博客，而google閱讀器很可能是google快速索引的入口。（然并卵，百度空間已經沒有了，google閱讀器也沒有了。）

索引系統(tǒng)的權值體系，是所有SEOER們最關心的問題，他們經常通過不同方式組合策略，觀察搜索引擎的收錄，排名，來路情況，然后通過對比分析整理出相關的策略，這玩意說出來可以開很長一篇了，但今天就不提了。

但我說一個事實，很多外面的公司，做SEO的，會誤認為百度里面的人熟悉這里的門道和規(guī)律，很多人高價去挖百度的搜索產品經理和技術工程師去做SEO，結果，呵呵，呵呵。而外面那些草根創(chuàng)業(yè)者，有些善于此道的，真的比百度的人還清楚，搜索權值的影響關系，和更新頻次等等，比如前面說到的，身價幾十億的那個80后創(chuàng)業(yè)者。

基于結果反推策略，比身在其中卻不識全局的參與者，更能找到系統(tǒng)的關鍵點，有意思不。

3、查詢展現

用戶在瀏覽器或者在手機客戶端輸入一個關鍵詞，或者幾個關鍵詞，甚至一句話，這個在服務端，應答程序獲取后處理步驟如下

第一步，會檢查最近時間有沒有人搜索過同樣的關鍵詞，如果存在這樣的緩存，最快的處理是將這塊緩存提供給你，這樣查詢效率最高，對后端負載壓力最低。

第二步，發(fā)現這個輸入查詢最近沒有搜索，或者有其他條件的原因必須更新結果，那么會將這個用戶輸入的詞，進行分詞，沒錯，如果不止一個關鍵詞，或者是一句話的情況下，應答程序會又一次分詞，將搜索的查詢拆成幾個不同的關鍵詞。

第三步，將切分后的關鍵詞分發(fā)到查詢系統(tǒng)中，查詢系統(tǒng)會去索引庫查詢，索引庫是個龐大的分布式系統(tǒng)，先分析這個關鍵詞屬于哪一塊哪一臺服務器，索引是一種有序的數據組合，我們用可以用近似二分法的方式思考，不管數據規(guī)模多大，你用二分法去查找一個結果，查詢頻次是log2(N)，這個就保證了海量數據下，查詢一個關鍵詞是非常快非?？斓?。當然，實際情況會比二分法復雜很多，這樣說比較容易理解而已，再復雜些不是我不告訴大家，是我自己都不是很清楚呢。

第四步，不同關鍵詞的查詢結果（只是按權值排序的部分頂部結果，絕對不是全部結果），基于權值倒序，會再匯總在一起，然后把共同命中的部分反饋回來，并做最后的權值排序。

記住，搜索引擎絕對不會返回所有結果，這個開銷誰都受不了，百度也不行，google也不行，翻頁都是有限制的。

再記住，如果你多個關鍵詞里有多個不同品類冷門詞，搜索引擎有可能會舍棄其中一個冷門詞，因為匯總數據很可能不包含共同結果。搜索技術不要神話，這樣的范例偶爾會出現。

這是三大部分，多說一點，其實還有第四部分。

4、用戶點擊行為采集和反饋部分

基于用戶的翻頁，點擊分布，對搜索結果的優(yōu)劣做判定，并對權值做調整，但這個早期搜索引擎是沒有的，后面才有，所以暫時不列為必備的三大塊。

此外，一些對搜索優(yōu)化的機器學習策略，對易混詞識別，同音詞識別等等，相當部分也都基于用戶行為反饋進行，這是后話，這里不展開。

關于第四部分，我以前說過一個詞，點擊提權，我說這個詞價值千金，我猜很多人并沒理解。沒理解就好，要不我要被一些同行罵死了。

以上是單指搜索引擎的工作原理，和一些技術邏輯，當然，只是入門級的解讀，畢竟再深入就不是我能講解的了。

但搜索引擎的本地化，并不局限于搜索技術的本地化。

百度的強大，不只是搜索技術，當然有些人會說百度沒有搜索技術，這種言論我就不爭論了，我不試圖改變任何人的觀點，我只列一些事實而已。

百度的強大還來自于兩大塊，第一是內容護城河，第二是入口把控。