2016-08-10 分類: 網站建設
解決標簽,爬行,以及用戶生成的內容
解決標簽蔓延:爬行預算,復制內容,以及用戶生成的內容
先進的搜索引擎優化|咨詢|技術SEO
打擊壞的辯解書呆子的指導,重復的用戶生成的數據,統計的內容,和純粹的意志的力量。
這里是情況。你有一百萬個產品網站。你的競爭對手有很多相同的產品。你需要獨特的內容。你是做什么的?每個人都做同樣的事情-你轉向用戶生成的內容。問題解決了,對吧?
用戶生成的內容(UGC)可以是一個非常有價值的內容和組織來源,幫助您建立自然語言描述和人為驅動的網站內容組織。網站利用用戶創建內容的一個共同特征是標簽,隨處可見,從電子商務網站到博客。網站管理員可以利用標簽功率網站搜索,創建分類和產品瀏覽類別,并提供網站內容豐富的描述。
這是一個合乎邏輯和實際的方法,但如果不加以控制會導致棘手的SEO問題。對于大型網站,手動調節數以百萬計的用戶提交的標簽可能是繁瑣的(如果不是完全不可能)。但是,未標記的標簽會產生大量內容稀疏、內容重復和內容擴展的大規模問題。在我們的案例研究下面,來自不同公司的三個技術SEO聯手解決大規模標簽擴展問題。該項目是由Jacob Bohall,在蜂巢的數字營銷副總裁,而計算統計服務是由J.R. Oakes適應合作伙伴和Russ瓊斯MOZ提供。讓我們潛水。
什么是標簽蔓延?
我們定義標簽蔓延的不受限制的增長獨特的,用戶貢獻的標簽產生大量的重復頁面和不必要的爬行空間。標簽蔓延產生的URL可能被列為門戶頁面,頁面出現只存在的目的是建立一個索引在一個詳盡的關鍵字數組。你可能見過這在其最基本的形式在帖子在博客的標簽,這就是為什么大多數SEO推薦一個毯子”NOINDEX,遵循“在標簽頁的WordPress網站。這種簡單的方法可以是一個有效的解決方案,為小博客網站,但往往不是解決方案的主要電子商務網站,更依賴于標簽進行分類的產品。
以下三個標簽云代表用戶生成的術語與不同的股票照片的列表。注:用戶行為通常是盡可能多的標簽,以確保他們的產品大限度地暴露。
美國航空母艦約克鎮號,約克鎮,CV,cvs-10,好人李察,革命戰爭的船舶、軍艦、海軍船、軍艦,攻擊航母,愛國點,標志性建筑,歷史性的船只,埃塞克斯級航母,水,海洋
船舶、船只、約克鎮、戰艇,愛國者足尖,舊軍艦,歷史地標,航母、軍艦、海軍艦艇,海軍艦艇,看,海洋
約克船舶、軍艦和航母,歷史軍事船只的美國航空母艦約克鎮號航空母艦
你可以看到,每個用戶產生的有價值的信息的照片,這是我們將要使用的為相關股票的圖像創建可轉位的分類依據。然而,在任何類型的規模,我們有直接的威脅:
細內容:只有少數產品共享用戶生成的標簽,當用戶創建一個更具體的/定義標簽,例如“cvs-10”
重復和類似的內容:這些標簽會重疊,如“美國航空母艦約克鎮號”與“約克,“船”與“船”的“簡歷”與“cvs-10,”等。
壞的內容:通過不正當的格式,拼寫錯誤,冗長的標簽,斷字和類似的錯誤創造,由用戶。
現在,你明白什么是標簽蔓延和它如何負面影響你的網站,我們如何才能解決這個問題的規模?
提出的解決方案
在糾正標簽擴展,我們有一些基本的(在表面上)的問題來解決。我們需要有效地檢查數據庫中的每個標記,并將它們分組,以便采取進一步的行動。首先,我們確定一個標簽的質量(有可能是有人搜索這個標簽,它拼寫正確,它是商業的,它是用于許多產品)和第二,我們確定是否有另一個標簽非常相似,它具有較高的質量。
確定好的標簽:我們定義了一個好的標簽作為術語能夠貢獻的意義,并很容易作為一個索引頁在搜索結果。這也需要識別一個“主”標簽來表示類似的術語組。
識別壞標簽:我們想孤立的標簽不應該出現在我們的數據庫中,由于拼寫錯誤,重復,可憐的格式,高歧義,或可能導致低質量的頁面。
好與壞標簽標簽:我們認為我們的許多最初的“壞標簽”可能是一個系列的副本,即復數/奇異、技術/俚語,聯用/非聯用,動詞,和其他的莖。也有可能是兩個短語指同一件事,像“約克船舶”和“美國航空母艦約克鎮號。“我們需要確定這些關系的每一個“壞”的標簽。
對于這個項目的啟發,我們的樣本標簽數據庫包括超過2000000個“獨特”的標簽,使這幾乎是不可能的壯舉,以手工完成。雖然理論上我們可以利用機械土耳其人或類似的平臺得到“手動”審查,這種方法的早期測試被證明是不成功的。我們需要一個程序化的方法(實際上是一些方法),我們可以稍后在添加新標簽時重現。
方法
保持心中的目標識別好的標簽,標簽和標簽的壞標簽,好與壞的標簽,我們雇了十幾個方法,包括:拼寫校正,出價值,標簽的搜索量,獨特的訪客,標簽數、堵塞、詞干提取、Jaccard指數,Jaro Winkler距離波特,關鍵字規劃分組,維基百科歧,和k-均值的詞向量聚類。每一種方法都幫助我們確定標簽是否有價值,如果沒有,幫助我們確定一個替代標簽是有價值的。
拼寫校正
方法:一個明顯的問題與用戶生成的內容是拼寫錯誤的發生。我們會經常發現拼寫錯誤,分號后的字母“L”或詞的開頭或結尾有意想不到的人物。幸運的是,Linux具有內置的拼寫檢查稱為一個我們能夠使用來解決大量的問題。
好處:這提供了一個快速,早期的勝利,這是相當容易識別壞標簽時,他們組成的詞不包括在字典或包括字符,這是簡單的莫名其妙(如分號中間的一個字)。此外,如果修正后的詞或短語出現在標簽列表,我們可以信任修正的短語作為一個潛在的好的標簽,并將拼錯的詞好標簽。因此,這種方法有助于我們兩個過濾不良標簽(拼錯的詞)和找到好的標簽(拼寫校正的術語)
局限性:這種方法大的局限在于正確拼寫單詞或短語的組合對用戶或搜索引擎不一定有用。例如,數據庫中的標簽很多都是多個標簽在用戶空間分隔,而不是逗號分隔的提交標簽串連。因此,標簽可能包括拼寫正確的術語,但仍然是無用的搜索值。此外,有大量字典的限制,特別是域名,品牌和互聯網俚語。為了適應這種情況,我們增加了一個個人的字典,包括根據Quantcast排名最前的10000域,幾千個品牌,和一個俚語詞典。雖然這是有幫助的,仍然有一些錯誤的建議,需要處理。例如,我們看到“purfect”正確的“好”盡管是一個貓的形象和流行文化有關的。我們也注意到一些用戶參考這句話“這款,”purrrfect,”purrrrfect,”purrfeck等,“最終,我們不得不依靠其他指標來決定我們是否可信的拼寫建議。
買入價值
方法:雖然標簽可能是好的,在某種意義上說,它是描述性的,我們想要的標簽,商業相關。使用標簽或標簽短語的每次點擊成本證明是有用的,以確保這個詞可以吸引買家,而不僅僅是游客。
好處:這種方法的一個偉大的特點是,它往往有一個高信號噪聲比。大部分的標簽,具有很高的材料往往是商業相關的搜索頻繁足以列入“好標簽”。在許多情況下,我們可以確信一個標簽只是在這個度量就好。
局限性:然而,出價值度量也有一些很大的局限性。對于初學者來說,谷歌關鍵詞策劃者的消歧問題顯而易見。谷歌結合相關的關鍵詞搜索量和共產黨一起報告時的數據,這意味著一個標簽,如“Facbook”將返回相同的數據為“臉譜網”。顯然,我們寧愿地圖“Facbook”到“臉譜網”而不是保持標簽,所以在某些情況下,中共度量不足以確定好標簽。出價值的進一步限制是獲取CPC數據的難點。谷歌現在需要運行有效的AdWords廣告系列獲得中國共產黨的價值。這是不是簡單的壯舉,看看5000000關鍵詞在谷歌關鍵詞規劃師,即使你有足夠的帳戶。幸運的是,我們覺得歷史數據足夠可信,所以我們不需要獲得新的數據。
標簽的搜索量
方法:與CPC相似,我們可以使用搜索量來確定標簽的潛在值。不過,我們必須小心,不要依賴于標簽本身,因為標簽可能是通用的,它使流量與產品本身無關。例如,標簽“美國航空母艦約克鎮號可能有幾百的搜索一個月,但“美國航空母艦約克鎮號T恤”獲得0。對于我們索引中的所有標簽,我們跟蹤了標簽的搜索量以及產品名稱,以確保我們對潛在產品流量有了很好的估計。
好處:像CPC,這個度量做了一個很好的工作,鞏固我們的標簽數據集只關鍵字,有可能提供流量。在絕大多數情況下,如果“標簽+產品”有搜索量,我們可以確信這是一個好術語。
局限性:不幸的是,這種方法是受害者的相同的消歧問題,中共提出。由于谷歌集團的條款一起,有可能在某些情況下,兩個標簽將給予相同的指標。例如:“浮船,”pontoonboat,“浮船,“浮船,”船劃船,”和“浮船”在同一流量組還包括像“游艇”、“游艇標簽。”此外,沒有占在這個度量關鍵詞難度。一些標簽,當結合產品類型、產品關鍵詞,獲得可觀的流量卻永遠是遙不可及的模板標簽頁。
獨特的訪客
方法:這個方法是顯而易見的:保護已經收到來自谷歌的流量標記。我們出口了所有的標簽從谷歌分析,已收到搜索流量從谷歌在過去12個月。一般來說,這應該是一個相當安全的條款列表。
好處:當與客戶進行實驗工作時,能夠給他們一個幾乎可以保證改進的方案總是很好的。因為我們能夠保護標簽已經收到的交通標簽他們好(在絕大多數情況下),我們可以確??蛻粲泻芨叩睦麧櫍瑥奈覀兯龅淖兓惋L險最小的任何交通損失。
局限性:不幸的是,即使這種方法并不好。如果一個產品(或一組產品)具有足夠高的權限,包括一個標簽的差的變化,那么壞的變種將排名和接收流量。我們必須使用其他策略來驗證我們的選擇,從這個方法,并設計了一種方法,以鼓勵標簽交換索引的正確版本的期限。
標簽數
描述:標簽使用的頻率往往是一個強烈的信號,我們可以信任的標簽,尤其是當與其他類似的標簽相比。通過計算每個標簽在網站上使用的次數,我們可以將最后一組值得信賴的標簽偏向于這些更受歡迎的術語。
好處:這是一個偉大的決勝指標,當我們有兩個標簽非常相似,但需要選擇只有一個。例如,有時一個詞組兩變種被完全接受(如版本和無連字符)。我們可以簡單地推遲一個具有較高的標簽數。
局限性:標簽頻率的明顯限制是許多最頻繁的標簽過于通用而不實用。標簽“藍色”是不是特別有用,當它只是幫助人們找到“藍色T恤”這個詞是
詞干提取
方法:詞干提取的工作類似于堵塞。然而,而不是使用一個規則集除信件到達干編輯的話,lemmatization試圖地圖的術語,其最簡單的詞典形式,如WordNet,并返回一個規范的“引理”這個詞。想想一個粗略的方式是詞干提取簡化字。這里有一個API來檢查出。
好處:這種方法往往比堵塞更好。術語“船”,“運”,“船”都映射到“船舶”,這種方法,而“航運”或“托運人”,這是具有不同的含義,盡管有相同的干,保留。您可以創建一個數組的“引理”從短語可以比較其他短語解決詞序問題。這被證明是一個更可靠的方法分組比詞干的變化。
局限性:與許多方法一樣,映射相關術語的上下文可能是困難的。詞干提取可以上下文提供更好的過濾器,但這樣做通常依賴于詞的形式(名詞,形容詞,識別等)適當地映射到一個根詞。由于用戶生成的內容不一致,假設所有的詞都是形容詞形式(描述產品)或名詞形式(產品本身)是不準確的。這種不一致可以呈現出瘋狂的結果。例如,“脫衣襪”的目的是作為一個標簽,襪子的顏色帶在他們身上,如“條紋襪”,或它可能是“脫衣襪”或其他一些綁腿,這將是一個匹配只發現如果有其他產品和標簽比較的背景。此外,它不創建所有相關的詞之間的關聯,只是文本衍生工具,所以你仍然在尋找一個規范之間的郵差,快遞,托運人等
Jaccard指數
方法:Jaccard指數是衡量交叉相似系數在聯盟?,F在,不要跑了,只是,其實很簡單。
想象一下,你有兩堆3個彈珠:紅色,綠色和藍色的第一,紅色,綠色和黃色的第二。這兩個樁的“交集”是紅色和綠色,因為兩個樁有這兩種顏色。“聯合”將是紅色,綠色,藍色和黃色,因為這是所有顏色的完整列表。Jaccard指數為2(紅色和綠色)除以4(紅色,綠色,藍色,黃色)。因此,這兩樁Jaccard指數將是5。較高的Jaccard指數,更相似的兩套。
那么這與標簽有什么關系呢?嗯,想象一下,我們有兩個標簽:“海洋”和“海”,我們可以得到一個列表中的所有已標記為“海洋”和“海洋產品。”最后,我們把這兩個集合的Jaccard指數。分數越高,他們的相關性越大。也許我們發現,70%的產品與標簽“海洋”也有標簽“海”,我們現在知道,這兩個是相當好的相關。然而,當我們運行相同的測量比較“地下室”或“平,“我們發現他們只有Jaccard指數02。盡管它們在人物方面非常相似,但它們卻意味著完全不同的東西。我們可以排除將兩個術語映射在一起。
優點:使用Jaccard指數的大好處是它可以讓我們找到高度相關的標簽可能有共同的絕對沒有文本的特點,很可能有一個過于相似或重復的結果集。雖然大多數的指標,我們認為到目前為止幫助我們找到“好”或“壞”的標簽,Jaccard指數可以幫助我們找到“相關”的標簽,而無需做任何復雜的機器學習。
局限性:當然有用,Jaccard指數的方法有其自身的問題。我們遇到的大問題是與標簽一起使用幾乎所有的時間,但不是替代彼此。例如,考慮標簽“魯思寶貝”和他的綽號,“蘇丹特警”。后者只發生在產品的標簽上也有“魯思寶貝”的標簽(因為這是他的一個綽號),所以他們有很高的Jaccard指數。然而,谷歌并沒有將這兩個術語映射在一起,所以我們更喜歡保留這個昵稱,而不是簡單地將其重定向到“貝貝魯思”,如果我們要確定什么時候我們應該同時保留兩個標簽,或者我們應該將一個標簽重定向到另一個標簽時,我們需要深入挖掘。作為一個獨立的,這種方法也并不充分,在確定的情況下,用戶總是拼錯的標簽或使用不正確的語法,他們的產品基本上沒有“聯盟成為孤兒。”
Jaro Winkler距離
方法:有幾個編輯距離和字符串相似性度量,我們在整個過程中使用。編輯距離僅僅是衡量一個單詞如何改變另一個單詞有多么困難。例如,最基本的編輯距離度量的Levenshtein距離之間的“Russ Jones”和“Russell Jones”是3(你要加“E”、“L”和“L”將Russ羅素)。這可以用來幫助我們找到類似的單詞和短語。在我們的例子中,我們使用一個特定的編輯距離的措施稱為“Jaro Winkler距離”使高優先級的詞和短語,起初是相似的。例如,“棒球”將更接近“Baseballer”比“籃球”因為差異是在學期結束。
好處:編輯距離度量幫助我們找到許多標簽非常相似的變種,特別是當變量是不是拼寫錯誤。這是特別有價值的使用與Jaccard指數指標結合,因為我們可以將上一個字符無關的度量字符水平的度量(即一個關心標簽中的字母和一個不)。
限制:編輯距離度量可以是一種愚蠢。根據Jaro Winkler的距離,“棒球”和“籃球”更相關的一個比“棒球”和“投手”和“捕手”,“團團”和“圓”有一個可怕的編輯距離度量,而“圓”和“磅”看上去很相似。編輯距離根本不能孤立使用找到類似的標簽。
關鍵詞規劃分組
方法:雖然谷歌的選擇相結合的關鍵字相似的關鍵字預測交通問題,它實際上為我們提供了一種新的方法來識別高度相關的術語。每當兩個標簽共享相同的指標,從谷歌關鍵詞規劃師(每月平均流量,歷史流量,CPC,和競爭),我們可以得出這樣的結論:有一個增加的機會,這兩個相互關聯。
好處:這種方法對于縮寫詞(特別是難以檢測)非常有用。雖然谷歌集團共同首席運營官和首席運營官,你可以想象,像上面提到的標準方法可能有問題檢測的關系。
限制:這種方法大的缺點是,它創造了眾多的誤報少受歡迎的條款。有太多的關鍵詞,每年的搜索量平均為10,每月搜索10次,并有黨和競爭的0。因此,我們不得不限制使用這種方法更流行的術語,只有極少數的比賽。
維基百科的消歧
方法:上面的許多方法是很好的分組相似/相關的條款,但不提供一個高信心的方法確定“主”的術語或短語代表一組相關/重復的術語。雖然可以考慮測試所有標簽對英語語言模型,缺乏流行文化的引用和短語,使它不可靠。為了有效地做到這一點,我們發現維基百科是一個值得信賴的來源,以確定適當的拼寫,時態,格式和詞序為任何給定的標簽。例如,如果用戶標記的產品為“魔戒”,“魔戒”,“魔戒”,“很難確定哪些標簽應該是選(當然我們不需要所有的3)。如果你搜索維基百科的這些條款,你會看到他們重定向到標題為“指環王”的網頁,在許多情況下,我們可以相信他們的典型變體作為“好標簽”,請注意,我們不鼓勵刮任何網站或違反其使用條款。維基百科確實提供了一個可以用于研究目的的整個數據庫的導出。
好處:當標簽可以映射到維基百科條目,這種方法被證明是一個非常有效的提供驗證,標簽有潛在的價值,或創建一個參考點的相關標簽。
k-均值向量聚類
方法:最后,我們試圖將標簽為一個子集更有意義的標簽使用Word嵌入和k-均值聚類。一般來說,參與的過程轉化為符號(單詞)的標簽,然后精煉的詞性(名詞、動詞、形容詞),和最后的lemmatizing令牌(“藍襯衫”變成了“藍衫”)。從那里,我們將所有標記為一個自定義Word2vec嵌入模型的基礎上加入每個令牌陣列向量。我們創建了一個標簽陣列和數據集的每個標簽的向量數組,然后跑k-均值的標簽的總數為百分之10多點的價值。起初,我們測試了30000個標簽,并取得了合理的結果。
以上分類列被選中的Kmeans質心。注意如何處理匹配的“海邊”到“海灘”和“沿海”到“海灘”。
好處:這種方法似乎做了一個很好的工作找到標簽和他們的類別之間的語義比字符驅動。“藍色襯衫”可能與“服裝”相匹配,這顯然是不可能的,因為在向量空間中沒有語義關系。
局限性:最終,我們遇到的主要缺點是試圖運行k-均值滿二百萬標簽而結束了200000類(重心)。sklearn Python允許多個并行工作,但只有在質心的初始化,在這種情況下是11的意思,即使你跑在60核心處理器,并行工作的數量被初始化的數量有限,在這種情況下,又是11。我們嘗試PCA(主成分分析),以減少矢量尺寸(300至10),但結果總體較差。最后,因為嵌入通常是基于條件概率封閉語料庫中對他們進行訓練了,有比賽,你可以理解為什么他們匹配,但顯然沒有正確的類別(如“第十九個世紀的藝術”被選為一類“第十八世紀的藝術”)。最后,環境問題和字嵌入顯然遭受認識的差異之間的“鴨子”(動物)和“鴨子”(行動)。
把它一起
使用上述方法的組合,我們能夠開發出一系列的方法的信心分數,可以應用到任何標簽在我們的數據集,產生一個啟發式如何考慮每個標簽前進。這些是案例級別的戰略,以確定適當的方法。我們表示如下:
好標簽:這主要是作為我們的“不接觸”的條款已經收到來自谷歌的流量列表。經過一些確認練習,名單擴展到包括獨特的條款與排名潛力,商業吸引力,獨特的產品集,以提供給客戶。例如,這個類別的啟發式可能看起來像這樣:
如果標簽與維基百科條目相同
標簽+產品估計搜索流量和
標簽有CPC值
馬克“好標簽”
好的標簽:這代表,我們想保留的產品和他們的描述有關,因為他們可以在網站上用來添加背景的一頁,但不保證自己的可轉位的空間。這些標簽映射被重定向或canonicaled到大師”,“但仍包含在一個網頁的主題相關度,自然語言查詢,長尾搜索,例如,啟發這類可能看起來像這樣:
如果標簽與維基百科條目相同,但
標簽+產品沒有搜索量
矢量標簽匹配“好標簽”
馬克作為“好標簽”,并重定向到“好標簽”
別壞標簽:這個分組代表壞標簽映射到一個置換。這些標簽將被刪除,并用修正的版本替換。這是最常見的拼寫錯誤或發現通過堵塞/詞干提取等,占主導地位的替代被確定。例如,這個類別的啟發式可能看起來像這樣:
如果標簽是不相同的維基百科或向量空間和
標簽+產品沒有搜索量
標簽沒有卷
標簽維基百科條目匹配“好標簽”
馬克為“映射”的壞標簽
要刪除的壞標簽:這些標簽被標記為不好標簽的壞標簽。從本質上講,這些需要從我們的數據庫完全刪除。這最后一組代表最壞的最壞的感覺,標簽的存在可能會被認為是一個負面指標的網站質量。考慮了字符長度的標簽,缺乏維基百科條目,無法映射到字向量,沒有以前的流量,沒有預測的流量或CPC值,等等,在許多情況下,這些都是廢話短語。
總之,我們能夠減少87.5%的標簽的數量,鞏固了網站的一個合理的,有針對性的,有用的一組標簽,適當地組織語料庫,而不浪費爬行預算或限制用戶參與。
結論:高級白帽SEO
這是近九年前,一個著名的黑帽SEO稱為白帽SEO是簡單、陳舊,缺乏創新和。他聲稱,“先進的白帽SEO”是一個矛盾--它根本不存在。我很自豪當時回應他的要求使用數字技術的蜂巢我稱它為“第二頁偷獵。”這是一個偉大的技術,但它蒼白的方法,我們現在看到的比較成熟的今天。我從來沒有設想的深度或廣度的技術水平,這將開發白帽子SEO社區處理獨特但持久的問題面臨著網站管理員。
我真誠地懷疑這里的大多數讀者將有特定的標簽蔓延的問題,上面所述。我會很幸運,如果你們中的一些人已經碰到它。我希望這篇文章可以糾正我們任何漫畫白帽SEO那么膚淺或停滯和激勵那些在我們的空間給他們工作。
文章標題:解決標簽,爬行,以及用戶生成的內容
URL標題:http://vcdvsql.cn/news/20755.html
成都網站建設公司_創新互聯,為您提供App設計、網站改版、小程序開發、手機網站建設、服務器托管、關鍵詞優化
聲明:本網站發布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網站立場,如需處理請聯系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創新互聯
猜你還喜歡下面的內容