快速解鎖搜索引擎的幾大知識點

2014-06-12 分類：網站建設

提起Search EngineOptimization(seo)，想必大家一定熟悉又陌生。SEO是最先被我們所熟悉的數字營銷概念之一。那為何又用“陌生” 來形容它呢?

是因為從業(yè)以來，大多數人僅對SEO的部分概念和術語有所了解，而對搜索引擎如何工作，如何解讀日常所接觸到的SEO報告，如何發(fā)現問題，如何進行優(yōu)化存在諸多盲點，對于如何針對自身情況制定SEO策略，更是無從下手。

那么從今天起，創(chuàng)新互聯將通過一個系列文章，力爭為大家梳理SEO知識點，希望大家在讀完該系列文章后，能夠獲得些許啟發(fā)，更好地為所任職崗位服務。

作為第一篇，我們先來了解一些基礎內容，大家是否曾思考過以下問題：

SEO是什么?我們如何去定義它?

為什么要做SEO?

移動互聯時代，還需要做SEO嗎?

搜索引擎的工作原理是什么?在簡單的 “輸入-搜索” 這幾步簡單的操作后，搜索引擎是如何從海量的數據中，找尋到我們所需要的內容，并展現給我們的?

帶著這些疑問，一起√get今天的知識吧!

知識點1：SEO是什么?我們如何定義它?

SEO的全稱是 “Search Engine Optimization”，中文譯為 “搜索引擎優(yōu)化”。

簡單地理解，SEO是一個從自然搜索結果中獲取網站流量的手段和過程;

更加嚴謹地去定義的話，SEO是一個“在了解搜索引擎自然排名機制的基礎上，對網站進行內部和外部的調整和優(yōu)化，改進網站在搜索引擎中的關鍵詞自然排名，以便爭奪流量，進而促成網站銷售或品牌曝光”的一個過程。

快速解鎖搜索引擎的幾大知識點

知識點2：為什么要做SEO?

網站所有者都希望自己的網站流量越大越好，無論網站盈利模式和目標是什么，有人訪問是前提。SEO則是給網站帶來訪問者的最好方法。讓我們一起來了解一下SEO的“優(yōu)勢”：

低成本：雖可能會產生費用，但成本相對較低

高回報：來自SEO的用戶多數情況下是在 “主動地找尋” 酒店，目標非常精準

可遷移：搜索引擎是用戶搜索、比較、購買商品的重要渠道，即便移動互聯網發(fā)展迅猛，SEO核心仍在，只不過載體有所變化

夠持久：精準廣告投放、付費搜索等類型推廣模式，一旦停止投放，流量將急劇下降;線上活動等事件營銷效果明顯，但話題過后流量隨即下降。而搜索排名一旦上去，可相對穩(wěn)定地維持比較久的時間，流量也因此會源源不斷地輸送過來

可擴展：掌握關鍵詞研究和內容擴展方法后，我們可以持續(xù)地，為網站增加目標關鍵詞及流量

知識點3：移動互聯時代，還需要做SEO嗎?

讓我們來看一些行業(yè)調查數據，了解一下SEO是否還有效?

2017 年上半年，即時通信、搜索引擎、網絡新聞作為基礎的互聯網應用，用戶規(guī)模趨于穩(wěn)定，搜索引擎應用繼續(xù)保持移動化趨勢。

雖然即時通信作為移動互聯網流量核心入口的地位已經確立。在新網民各類應用中的滲透率排名第一，高于排名第二的搜索引擎16. 9個百分點，但搜索引擎在目前仍舊穩(wěn)居第二位。

截至 2017 年6 月，我國搜索引擎用戶規(guī)模達 6.09 億，使用率為81.1%，用戶規(guī)模較 2016 年底增加707 萬，增長率為1.2%

知識點4：搜索引擎的工作原理?

面對數以萬億的信息，搜索引擎如何做到在 1 秒鐘甚至更短的時間內，返回我們想要的內容?回答這個問題，需要對搜索引擎工作原理做個分解，大致分為 3個階段：

爬行和抓取：搜索引擎程序通過訪問網頁，獲得頁面HTML代碼存入數據庫

預處理：程序對數據庫網頁進行一系列處理，為排名程序調用做準備

排名：用戶輸入關鍵詞后，程序調用預處理好的數據，計算相關性，生成結果

首先看第一階段，即 “爬行和抓取”

對于搜索引擎來說，首要任務是完成對互聯網內網頁數據收集。而用于數據收集的工具，就是我們常常聽到的“蜘蛛”，它是搜索引擎用來爬行和訪問頁面的程序。蜘蛛發(fā)出頁面訪問請求后，服務器返回HTML代碼，蜘蛛把收到的代碼存入數據庫中。蜘蛛會對鏈接進行跟蹤，根據一個頁面上的鏈接，爬行(讀取)至下一個，這也是為什么被人稱之為“蜘蛛”。

在數據收集過程中，聰明的蜘蛛為了提升效率，避免重復讀取網頁數據，搜索引擎會建立地址庫，記錄 “被讀取的”，和 “發(fā)現但未被讀取的”頁面。構建原始頁面數據庫，以儲存讀取后的頁面數據。

讀取結束，構建好原始數據庫后，搜索引擎將進行第二階段的任務 - “預處理”。什么是 “預處理”呢?原始數據庫中存在數以萬億的網頁數據，排名程序無法做到每時每刻，對數量如此龐大的數據進行分析，也就無法在1- 2秒內返回搜索結果。因此必須處理這些數據，為最后排名程序調用做準備。

預處理的第一步是對數據進行篩選，去除無用的信息，提取文字。現在搜索引擎仍以文字內容為基礎，數據庫中的頁面數據，除了我們在網頁上看到的文字外，還包含HTML標簽、JavaScript程序等無法用于排名的內容。程序需要去除這些無用信息，提取出可用于排名的內容。除文字外，程序也會提取出一些特殊的包含文字信息的代碼，例如Meta標簽中的文字、圖片替代文字、Flash文件的替代文字、鏈接錨文字等。

隨后，我們需要介紹一個小知識，即中文搜索引擎所獨有的步驟 - “中文分詞”。“詞”是程序處理數據、用戶查詢的單位和基礎。與英文不同，搜索引擎必須區(qū)分用戶搜索的中文內容里，哪幾個字組成一個單詞，才能進行下一步工作。

在分詞過后，程序需要進行另一個步驟，即剔除 “停止詞”。在任何語言里，都存在出現頻率高，但對內容影響不大的詞匯，例如中文“的”、“啊”、“卻”;英文中 “the” “a” “and” “to”“of”等。這些被稱作“停止詞”，程序會去除這些停止詞，使搜索內容更突出，減少程序計算上內耗。

緊接著，程序還會對網頁數據進行去重，同一內容可能會重復發(fā)布在多個網站，為了避免將多篇重復的內容返回給擁護，所以需要在預先剔除重復內容。

在完成上述后，程序得到的是 “獨特的，能反應頁面主題的，以詞匯為單位的” 內容，緊隨其后，程序將正向索引。通過提取關鍵詞，把內容轉化成“以關鍵詞為單位” 的集合，同時記錄關鍵詞出現頻次、格式(黑體、加粗錨文字)、位置(標題、頁面段首、段尾)等屬性。然后將其轉化為如下結構，儲存進數據庫：

經 “正向索引” 后的數據，無法直接排名，因為同一關鍵詞可能出現在多個文件中，所以聰明的程序猿們，發(fā)明了 “倒排索引”，將文件重新構造為倒排索引：

現在，搜索引擎已經做好了隨時處理用戶搜索請求的準備，那么隨之而來的，就是搜索引擎第三階段的任務，即排名。

快速解鎖搜索引擎的幾大知識點

每當搜索引擎接受到用戶搜索的內容后，會進行這樣的處理：

分詞(與預處理一樣，將我們搜索的內容，劃分為以“詞”為基礎組合)

剔除停止詞(與預處理一樣，剔除不相關詞匯)

指令處理(搜索引擎默認是在關鍵詞之間運用 “與”的邏輯)

拼寫矯正(對程序檢測判定為錯誤的內容，進行矯正)

經過以上處理并進行匹配后，程序會在倒排索引數據庫中找出符合搜索內容關鍵詞的文件集合。例如，搜索內容包括 “關鍵詞1”“關鍵詞2”，排名程序僅需要找到含有這 2 個關鍵詞的文件，即 “文件2” “文件3”。

由于數量龐大，因此搜索引擎程序不會對這些龐大的數據進行處理，只會針對最重要的部分頁面數據進行排名，此外用戶通常也只會查看前兩頁搜索結果，因此，搜索引擎也不需要大費周折地去對所有數據進行排名。那么，怎樣針對“最重要的部分頁面數據” 去排名呢，這里就要依賴于自身算法 - 相關性計算的幫助，該算法會計算某個頁面數據與用戶搜索內容的相關性，從而完成排名。

到這里，搜索引擎已基本完成用戶的 “搜索請求”，但根據2/ 8定律，約20%的搜索內容，占總搜索次數的80%左右。搜索引擎會把常見詞匯的排名以及數據進行緩存，在用戶搜索時會直接調用緩存數據，從而減少一系列龐大又耗能的步驟，縮短反饋時間、提升用戶體驗。

本文名稱：快速解鎖搜索引擎的幾大知識點
本文網址：http://vcdvsql.cn/news42/27142.html

成都網站建設公司_創(chuàng)新互聯，為您提供自適應網站、外貿建站、虛擬主機、品牌網站設計、營銷型網站建設、靜態(tài)網站

聲明：本網站發(fā)布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創(chuàng)新互聯

猜你還喜歡下面的內容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

快速解鎖搜索引擎的幾大知識點