優化網站的抓取與收錄

2023-12-01 分類：網站建設

很多有關于網站結構、抓取與收錄、甚至是排名的問題都可以被歸結為一個中心問題，那就是：搜索引擎能夠多么容易的抓取您的網站？我們在最近的幾次活動上都談到過這個話題，下面您將會看到我們關于這個問題的演講內容以及要點概括。
網絡世界極其龐大；每時每刻都在產生新的內容。Google 本身的資源是有限的，當面對幾近無窮無盡的網絡內容的時候，Googlebot 只能找到和抓取其中一定比例的內容。然后，在我們已經抓取到的內容中，我們也只能索引其中的一部分。
URLs 就像網站和搜索引擎抓取工具之間的橋梁：為了能夠抓取到您網站的內容，抓取工具需要能夠找到并跨越這些橋梁（也就是找到并抓取您的URLs）。如果您的URLs很復雜或冗長，抓取工具不得不需要反復花時間去跟蹤這些網址；如果您的URLs很規整并且直接指向您的獨特內容，抓取工具就可以把精力放在了解您的內容上，而不是白白花在抓取空網頁或被不同的URLs指引卻最終只是抓取到了相同的重復內容。
在上面的幻燈片上，您可以看到一些我們應當避免的反例--這些都是現實中存在的URL例子（盡管他們的名稱由于保護隱私的原因已經被替換了），這些例子包括被黑的URL和編碼，冗余的參數偽裝成URL路徑的一部分，無限的抓取空間，等等。您還可以找到幫助您理順這些網址迷宮和幫助抓取工具更快更好地找到您的內容的一些建議，主要包括：
1）去除URL中的用戶相關參數
那些不會對網頁內容產生影響的URL中的參數——例如session ID或者排序參數——是可以從URL中去除的，并被cookie記錄的。通過將這些信息加入cookie，然后301重定向至一個“干凈”的URL，你可以保持原有的內容，并減少多個URL指向同一內容的情況。
控制無限空間
你的網站上是否有一個日歷表，上面的鏈接指向無數個過去和將來的日期（每一個鏈接地址都獨一無二）？你的網頁地址是否在加入一個&page=3563的參數之后，仍然可以返回200代碼，哪怕根本沒有這么多頁？如果是這樣的話，你的網站上就出現了所謂的“無限空間”，這種情況會浪費抓取機器人和你的網站的帶寬。如何控制好“無限空間”，參考這里的一些技巧吧。
2）阻止Google爬蟲抓取他們不能處理的頁面
通過使用你的robots.txt 文件，你可以阻止你的登錄頁面，聯系方式，購物車以及其他一些爬蟲不能處理的頁面被抓取。（爬蟲是以他的吝嗇和害羞而著名，所以一般他們不會自己 “往購物車里添加貨物” 或者 “聯系我們”）。通過這種方式，你可以讓爬蟲花費更多的時間抓取你的網站上他們能夠處理的內容。
一人一票。一個 URL，一段內容
在理想的世界里，URL和內容之間有著一對一的對應：每一個URL會對應一段獨特的內容，而每一段內容只能通過唯一的一個URL訪問。越接近這樣的理想狀況，你的網站會越容易被抓取和收錄。如果你的內容管理系統或者目前的網站建立讓它實現起來比較困難，你可以嘗試使用rel=canonical元素去設定你想用的URL去指示某個特定的內容。

網站題目：優化網站的抓取與收錄
新聞來源：http://vcdvsql.cn/news6/297906.html

成都網站建設公司_創新互聯，為您提供定制網站、虛擬主機、ChatGPT、外貿建站、營銷型網站建設、自適應網站

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

優化網站的抓取與收錄