搜索引擎爬蟲的更新,基本應用在像快照的更新,搜索引擎對已抓取頁面的再抓取行為等。至于為什么要進行再抓取基本是因為互聯網上萬萬億的頁面量。很多頁面還是有一直變化的。這個變化的前置因子,導致了爬蟲要不斷的更新自己的數據,從而一定要對已經抓取的網頁進行再抓取。那搜索引擎爬蟲的三大更新策略都是什么呢?
網站建設哪家好,找創新互聯公司!專注于網頁設計、網站建設、微信開發、成都小程序開發、集團企業網站建設等服務項目。為回饋新老客戶創新互聯還提供了桐城免費建站歡迎大家使用!所謂歷史更新策略,就是針對已經抓取的網頁有一個再抓取的時間限制。例如爬蟲抓取我SEO博客的首頁,從而搜索引擎通過一直以來的抓取得出我的博客首頁平均每3天更新一次,那么爬蟲的抓取策略就會調整為每3天訪問一次我的博客首頁。
這樣的更新抓取策略告訴我們,網頁變化頻繁就會引來蜘蛛的頻繁抓取。所以在這里如果你的網頁全部是靜態的。也就意味著不生成一遍對應頁面是不會發生變化的。相對而言針對這種策略邏輯你就不是很站好。所以網址設置為偽靜態的,在網站打開速度能夠很好控制的前提下,把網頁本身設置為動態頁面是很不錯的選擇。
搜索引擎爬蟲的用戶體驗更新策略
所謂用戶體驗的網頁更新策略,是搜索引擎認為網頁參與具有一定搜索量詞的排名,且在前3頁的,是經常會被用戶訪問到的頁面。那么針對這類頁面要更優先的進行抓取更新。
而3頁之后的網頁對于用戶而言,訪問的人占到了極少數,晚一些時間更新也未嘗不可。因此采取的一種網頁抓取更新策略。
這種策略讓我們知道,一些核心關鍵詞排名靠前的網頁,被爬蟲抓取的頻次是更多的。那么值得思考的一個問題是網站也會有一些詳情頁,聚合頁甚至文章頁參與比錯的詞的排名。這是不是意味著這次頁面抓取量也不錯呢?針對這個問題,趙彥剛之前通過對訪問日志的分析確定了這個答案,在80%的情況下,確實是這樣的。但這種頁面的頻率遠低于首頁、頻道頁等距離首頁更近,路徑更短的頁面抓取量。
不過,我們還是可以好好優化我們的詳情頁/文章頁,在這類頁面以展示最新內容,為最新內容的收錄增加爬蟲抓取的入口。
搜索引擎爬蟲抓取網頁的抽樣聚類策略
談到這個策略,我們先從字面意思來看“抽樣,聚類”。抽樣是指從網站中抽取一些樣本出來進行觀察,而聚類是根據這些樣本的觀察得出一定的結論后應用于這個類型上。
我們的網站都是有不同類型組成的,例如列表頁、產品詳情頁、文章頁、頻道頁、聚合頁等,這些都是不同的類型。搜索引擎從這中間抽選出一些樣本,進行觀察后得出一個更新周期后,應用于整個類型的方式就是抽樣聚類的網頁抓取更新策略。
我們舉個例子,搜索引擎從列表頁抽樣找到A列表頁,通過分析觀察發現A列表頁每2天可以抓取一次。然后和A列表頁同類型的還有B、C、D列表頁,因為他們的模版一樣、導航都有、首頁下模塊也特指這四個列表頁。那么他們是一類的,所以B、C、D列表頁和A列表頁一樣,都是2天一抓取。
好了今天的分享就到這里,希望對你有所幫助。
網站名稱:搜索引擎爬蟲的三大更新策略是什么?
標題鏈接:http://vcdvsql.cn/article26/cisocg.html
成都網站建設公司_創新互聯,為您提供做網站、動態網站、網站維護、微信小程序、Google、搜索引擎優化
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯