百度搜索Spider3.0升級了
隨時了解百度Spider的動向是做SEO的工作之一,最近百度搜索Spider3.0升級了,下面是升級的內(nèi)容:
簡單的概括下百度搜索Spider3.0升級了升級的特點就是:抓取更實時,收錄效率更快,對原創(chuàng)優(yōu)質(zhì)內(nèi)容更青睞。
此次升級是把當前離線、全量計算為主的系統(tǒng),改造成實時、增量計算的全實時調(diào)度系統(tǒng),萬億規(guī)模的數(shù)據(jù)進行實時讀寫,可以收錄90%的網(wǎng)頁,速度提升80%!
『抓取、建庫更快—提交的內(nèi)容更容易被抓取』
鏈接發(fā)現(xiàn)方面:如今sipder每天發(fā)現(xiàn)的新鏈接在500億左右的量級,說明啥?你的站點內(nèi)容越來越容易被Spider發(fā)現(xiàn)和抓取,而在百度站長平臺提交鏈接是最為高效的,但是百度工程師建議站長,不要過度提交鏈接,尤其是低質(zhì)鏈接,這樣才能達到更好更及時的收錄效果。
鏈接抓取和建庫方面,開發(fā)了更強大的機器學習模型,來進行鏈接的質(zhì)量預(yù)測,對庫中所有的鏈接進行全局排序,對有價值鏈接的召回率提高95%!索引展現(xiàn)時效性提升,原來是10天左右,現(xiàn)在提升40%~80%不等!我們都知道,搜索引擎從用戶搜索到最終搜索結(jié)果展現(xiàn)的步驟是:抓取、建庫、排序、展現(xiàn),抓取和建庫速度大幅提升意味著站點的內(nèi)容可以比原來更快的展現(xiàn)給最終搜索用戶。
『死鏈處理更及時—被黑低質(zhì)頁面全屏蔽』
在死鏈處理方面,Spider3.0啟用了全新的死鏈識別模型,能識別協(xié)議死鏈,以及大多數(shù)內(nèi)容死鏈、跳轉(zhuǎn)死鏈等低質(zhì)網(wǎng)頁,簡單點說就是在之前的版本,站點通過站長平臺提交死鏈,處理速度可能非常慢,甚至快照在一段時間內(nèi)仍然存在,但是Spider3.0更新后,大約幾天內(nèi)就可以處理掉了。當然,如果你要追求最佳處理效果,協(xié)議死鏈是最好的選擇。
『時效性內(nèi)容更多—有內(nèi)容站點的更多機遇』
在對時效性頁面收錄方面,在之前的2.0搜索時代,很多中小站長寫出的高質(zhì)量文章,一旦被高權(quán)重的站點轉(zhuǎn)載,那么幾乎自己的原創(chuàng)文章還不如大站轉(zhuǎn)載后來的流量多,而在3.0時代,這樣的情況將大有好轉(zhuǎn),配合使用百度的主動提交等鏈接提交方式,文章發(fā)布后第一時間提交給百度,那么一旦被收錄,哪怕其他的大站轉(zhuǎn)載了你的文章,你的文章在搜索結(jié)果中仍然排名更好。這樣,更多的高質(zhì)量內(nèi)容展示給搜索用戶,就是一個更加健康的互聯(lián)網(wǎng)生態(tài)。
關(guān)于時效性方面,我們現(xiàn)在其實可以自己搜索某個關(guān)鍵詞,在搜索結(jié)果中可以發(fā)現(xiàn),收錄時間越近的排名會越靠前,當然主要集中在新聞類的文章,這就是時效性,這就對站點的更新頻率提出了更高的要求,當然排名不可能簡單的跟發(fā)布時間有關(guān),還有很多維度,但是針對新聞類的文章,隨時跟進新聞的進度很重要。
在這我們不得不再提一下百度站長平臺鏈接提交中的主動推送功能,要想時效性頁面更好的被百度收錄,主動推送功能時效性內(nèi)容提交的是唯一的入口!
『鏈接提交更好用—站點提交鏈接會更易收錄』
主動推送通過工具原理是什么呢?主動推送工具獲取16個英文數(shù)字組合的字符串,制作數(shù)據(jù)推送接口,實現(xiàn)最快速度的數(shù)據(jù)推送。該功能自開放半年來參與提交站點近10W,日提交數(shù)據(jù)5000W,提交數(shù)據(jù)平均被抓取時間早于爬蟲發(fā)現(xiàn)時間4個小時;提交數(shù)據(jù)當天收錄量60%--100%,這說明,大多數(shù)站點使用此功能收效都是不錯的。