百度怎么判斷原創(chuàng)文章呢?

一、搜索引擎為什么要重視原創(chuàng)
1.1 采集泛濫化
來自百度的一項調(diào)查顯示,超過80%的新聞和資訊等都在被人工轉載或機器采集,從傳統(tǒng)媒體的報紙到娛樂網(wǎng)站花邊消息、從游戲攻略到產(chǎn)品評測,甚至高校圖書館發(fā)的催還通知都有站點在做機器采集??梢哉f,優(yōu)質原創(chuàng)內(nèi)容是被包圍在采集的汪洋大海中之一粟,搜索引擎在海中淘粟,是既艱難又具有挑戰(zhàn)性的事情。
1.2 提高搜索用戶體驗
數(shù)字化降低了傳播成本,工具化降低了采集成本,機器采集行為混淆內(nèi)容來源降低內(nèi)容質量。采集過程中,出于無意或有意,導致采集網(wǎng)頁內(nèi)容殘缺不全,格式錯亂或附加垃圾等問題層出不窮,這已經(jīng)嚴重影響了搜索結果的質量和用戶體驗。搜索引擎重視原創(chuàng)的根本原因是為了提高用戶體驗,這里講的原創(chuàng)為優(yōu)質原創(chuàng)內(nèi)容。
1.3 鼓勵原創(chuàng)作者和文章
轉載和采集,分流了優(yōu)質原創(chuàng)站點的流量,不再具屬原創(chuàng)作者的名稱,會直接影響到優(yōu)質原創(chuàng)站長和作者的收益。長期看會影響原創(chuàng)者的積極性,不利于創(chuàng)新,不利于新的優(yōu)質內(nèi)容產(chǎn)生。鼓勵優(yōu)質原創(chuàng),鼓勵創(chuàng)新,給予原創(chuàng)站點和作者合理的流量,從而促進互聯(lián)網(wǎng)內(nèi)容的繁榮,理應是搜索引擎的一個重要任務。
2.1 采集冒充原創(chuàng),篡改關鍵信息
當前,大量的網(wǎng)站批量采集原創(chuàng)內(nèi)容后,用人工或機器的方法,篡改作者、發(fā)布時間和來源等關鍵信息,冒充原創(chuàng)。此類冒充原創(chuàng)是需要搜索引擎識別出來予以適當調(diào)整的。
2.2 內(nèi)容生成器,制造偽原創(chuàng)
利用自動文章生成器等工具,“獨創(chuàng)”一篇文章,然后安一個吸引眼球的title,現(xiàn)在的成本也低得很,而且一定具有獨創(chuàng)性。然而,原創(chuàng)是要具有社會共識價值的,而不是胡亂制造一篇根本不通的垃圾就能算做有價值的優(yōu)質原創(chuàng)內(nèi)容。內(nèi)容雖然獨特,但是不具社會共識價值,此類偽原創(chuàng)是搜索引擎需要重點識別出來并予以打擊的。
2.3 網(wǎng)頁差異化,結構化信息提取困難
不同的站點結構化差異比較大,html標簽的含義和分布也不同,因此提取關鍵信息如標題、作者和時間的難易程度差別也比較大。做到既提得全,又提得準,還要最及時,在當前的中文互聯(lián)網(wǎng)規(guī)模下實屬不易,這部分將需要搜索引擎與站長配合好才會更順暢的運行,站長們?nèi)绻酶逦慕Y構告知搜索引擎網(wǎng)頁的布局,將使搜索引擎高效地提取原創(chuàng)相關的信息。
三、百度識別原創(chuàng)之路如何走?3.1 成立原創(chuàng)項目組,打持久戰(zhàn)
面對挑戰(zhàn),為了提高搜索引擎用戶體驗、為了使優(yōu)質原創(chuàng)者原創(chuàng)網(wǎng)站得到應有的收益、為了推動中文互聯(lián)網(wǎng)的前進,我們抽調(diào)大量人員組成原創(chuàng)項目組:技術、產(chǎn)品、運營、法務等等,這不是臨時組織不是1個月2個月的項目,我們做好了打持久戰(zhàn)的準備。
3.2 原創(chuàng)識別“起源”算法
互聯(lián)網(wǎng)動輒上百億、上千億的網(wǎng)頁,從中挖掘原創(chuàng)內(nèi)容,可以說是大海撈針,千頭萬緒。我們的原創(chuàng)識別系統(tǒng),在百度大數(shù)據(jù)的云計算平臺上開展,能夠快速實現(xiàn)對全部中文互聯(lián)網(wǎng)網(wǎng)頁的重復聚合和鏈接指向關系分析。
首先,通過內(nèi)容相似程度來聚合采集和原創(chuàng),將相似網(wǎng)頁聚合在一起作為原創(chuàng)識別的候選集合;
其次,對原創(chuàng)候選集合,通過作者、發(fā)布時間、鏈接指向、用戶評論、作者和站點的歷史原創(chuàng)情況、轉發(fā)軌跡等上百種因素來識別判斷出原創(chuàng)網(wǎng)頁;
最后,通過價值分析系統(tǒng)判斷該原創(chuàng)內(nèi)容的價值高低進而適當?shù)闹笇ё罱K排序。
目前,通過我們的實驗以及真實線上數(shù)據(jù),“起源”算法已經(jīng)取得了一定的進展,在新聞、資訊等領域解決了絕大部分問題。當然,其他領域還有更多的原創(chuàng)問題等待“起源”去解決,我們堅定的走著。
3.3 原創(chuàng)星火計劃
我們一直致力于原創(chuàng)內(nèi)容的識別和排序算法調(diào)整,但在當前互聯(lián)網(wǎng)環(huán)境下,快速識別原創(chuàng)解決原創(chuàng)問題確實面臨著很大的挑戰(zhàn),計算數(shù)據(jù)規(guī)模龐大,面對的采集方式層出不窮,不同站點的建站方式和模版差異巨大,內(nèi)容提取復雜等等問題。這些因素都會影響原創(chuàng)算法識別,甚至導致判斷出錯。這時候就需要百度和站長共同努力來維護互聯(lián)網(wǎng)的生態(tài)環(huán)境,站長推薦原創(chuàng)內(nèi)容,搜索引擎通過一定的判斷后優(yōu)待原創(chuàng)內(nèi)容,共同推進生態(tài)的改善,鼓勵原創(chuàng),這就是“原創(chuàng)星火計劃”,旨在快速解決當前面臨的嚴重問題。另外,站長對原創(chuàng)內(nèi)容的推薦,將應用于“起源”算法,進而幫助百度發(fā)現(xiàn)算法的不足,不斷改進,用更加智能的識別算法自動識別原創(chuàng)內(nèi)容。
目前,原創(chuàng)星火計劃也取得了初步的效果,一期對部分重點原創(chuàng)新聞站點的原創(chuàng)內(nèi)容在百度搜索結果中給予了原創(chuàng)標記、作者展示等等,并且在排序及流量上也取得了合理的提升。
最后,原創(chuàng)是生態(tài)問題,需要長期的改善,我們將持續(xù)投入,與站長攜手推動互聯(lián)網(wǎng)生態(tài)的進步;原創(chuàng)是環(huán)境問題,需要大家來共同維護,站長們多做原創(chuàng),多推薦原創(chuàng),百度將持續(xù)努力改進排序算法,鼓勵原創(chuàng)內(nèi)容,為原創(chuàng)作者、原創(chuàng)站點提供合理的排序和流量。
以上就是整理互聯(lián)網(wǎng)內(nèi)容給大家?guī)淼姆治鼋榻B,如果大家想了解更多相關內(nèi)容,請持續(xù)關注本站,本站小編將在第一時間為大家?guī)砀玫慕?jīng)典內(nèi)容。更多精彩內(nèi)容,盡在jb51網(wǎng)站運營欄目!
相關文章
如何寫出高質量的偽原創(chuàng)文章?寫出高質量偽原創(chuàng)文章的方法
如何寫出高質量的偽原創(chuàng)文章?有朋友問到這個問題,本文小編就給大家詳細介紹下寫出高質量偽原創(chuàng)文章的方法,感興趣的朋友們可以過來看看2015-12-22網(wǎng)站原創(chuàng)文章怎么尋找寫作的素材?
網(wǎng)站原創(chuàng)文章怎么尋找寫作的素材?大家都知道原創(chuàng)文章對網(wǎng)站的排名和權重起著很重要的作用,但是原創(chuàng)文章的素材質量也很重要,怎么去尋找高質量的原創(chuàng)素材呢?下面我們從五2015-12-20提升網(wǎng)站原創(chuàng)文章高效收錄的五個方面
一個網(wǎng)站收錄的文章越多,那么這個站點相對來說也越優(yōu)秀,排名也更好。當然原創(chuàng)文章越多,這個網(wǎng)站越被搜索引擎所喜歡,那么,如何提升一個網(wǎng)站中原創(chuàng)文章的高效收錄呢?對2015-12-16撰寫高質量的原創(chuàng)文章并按規(guī)律更新為何不被收錄
原創(chuàng)文章向來是網(wǎng)站優(yōu)化中的重中之重。但這并不意味著只要是原創(chuàng)文章就是好的。質量差的原創(chuàng)文章,白白耗費心力不說,在收錄上也很差,遠遠比不上高質量的偽原創(chuàng)。但是撰寫2015-12-09- 近來,搜索引擎越來越喜歡原創(chuàng)文章了,原創(chuàng)度越好,百度排名就會越高,但是,最近有伙伴問小編:為什么自己創(chuàng)作的原創(chuàng)文章不被百度收錄?針對此類問題,本文就為大家進行解2015-12-03
- 大家都知道原創(chuàng)文章的權重很高,可是原創(chuàng)的內(nèi)容畢竟很少,其實改動少許內(nèi)容,偽原創(chuàng)達到70%左右,在百度算法中就能被默認為原創(chuàng)文章,然后在這些內(nèi)容中適當增加一些關鍵詞2014-11-11
- 何為原創(chuàng)、如何原創(chuàng)、該把握哪些方面技巧,已經(jīng)成為大家是否能夠真正掌握SEO這門藝術的重要三方面2014-08-23
如何寫好原創(chuàng)文章 分享原創(chuàng)文章的寫作方法與技巧
一個高質量的網(wǎng)站,肯定擁有高質量的內(nèi)容,而原創(chuàng)文章作為高質量內(nèi)容的代表則更是不可或缺。那么如何寫好原創(chuàng)文章?筆者從事SEO相關行業(yè)的工作兩年左右的時間,在原創(chuàng)文章2014-07-02- 我,馮東陽,一介草根,草根的無法再草根了!但是,我還是想把自己打造成草根中的明星,就像王寶強那樣,成為娛樂圈的一個草根明星。而我,則希望把自己打造成站長圈的自媒2014-07-02
教你如何寫出高質量的原創(chuàng)文章 5個法則助你輕松原創(chuàng)
一篇好的原創(chuàng)文章是所有網(wǎng)絡編輯人員都想擁有的,但很多人往往都寫不出好的文章,這讓他們很煩惱。其實想要寫出一篇好的原創(chuàng)文章很簡單,只要按照5個法則,就能助你輕松原2014-06-09