分析LDA在推薦系統上的引用

本篇內容介紹了“分析LDA在推薦系統上的引用”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

創新互聯公司專業為企業提供扶溝網站建設、扶溝做網站、扶溝網站設計、扶溝網站制作等企業網站建設、網頁設計與制作、扶溝企業網站模板建站服務，十載扶溝做網站經驗，不只是建網站，更提供有價值的思路和整體網絡服務。

導讀

LDA是文檔分類上的經典算法，如何應用到推薦系統上，大家可以看看。

Latent Dirichlet Allocation(LDA)是一種無監督發現語料庫底層主題的主題建模算法。它已被廣泛應用于各種領域，特別是在自然語言處理和推薦系統中。

概要介紹

LDA是語料庫/文檔的生成概率模型。它基于“詞袋”假設，即詞語和文檔是可互換的。也就是說，忽略了文檔中文字的順序，或者忽略了文檔的順序。其基本思想是每個文檔都是由不同的主題組合而成，而每個主題的是通過單詞的分布來描述。

每個文檔都由一個主題分布組成

每個主題都用單詞的分布來表示

LDA假設單個文檔的生成都是通過從每個文檔中抽取主題，然后從每個抽取的主題中抽取單詞來生成的。為了獲得單詞和主題的適當分布，我們可以使用Gibbs Sampling、Maximum a Posteriori (MAP)或expect Maximization (EM)來訓練LDA。

Plate表示法

為了更深入一點，讓我們討論一下LDA的符號表示法。在貝葉斯推理中，Plate表示法是一種圖形化的表示隨機變量抽樣的重復過程的方法。每個plate可以看作是一個“循環”，其中plate右下角的變量表示循環的迭代次數。下面是LDA的Plate表示法。

LDA plate 表示法

在上面的圖中有兩個組件。上面的plate，有K個主題，這些主題的詞的狄利克雷分布由超參數β控制。同樣，下面的表格描述了有M個文檔，每個文檔包含N個單詞。灰色的圓圈w是觀察到的單詞，圓圈代表不同的潛在變量。z指的是與w相關聯的主題，θ是文檔主題的狄利克雷分布，由另一個超參數?控制。

生成過程

現在我們大致了解了如何通過plate表示法來生成文檔。讓我們用數學來表示它。

從狄利克雷分布(θ_i ~ Dir(?)，i從1到M)中采樣θ
從另一個狄利克雷分布(φ_k ~ Dir(β) k從1到K)中采樣φ
從z_ij ~ Multinomial(θ_i) 采樣，從w_ij ~ Multinomial(φ_z_ij) 中采樣，i從1到M，j從1到N

以《紐約時報》為例。首先，對于每個新聞文章，我們對整個文檔的主題分布θ_i_進行采樣。對每個主題中詞的分布φ_k_進行采樣。然后，對于每個文檔中的詞j，我們從給定的主題分布Multinomial(θ_i)中得到一個主題z_ij，然后從給定的詞的分布Multinomial(φ_z_ij)中的到w_ij，并基于w_ij采樣得到一個單詞。這個過程通過下面的圖來表示。

生成過程的可視化

狄利克雷分布

我們一直把狄利克雷作為黑盒子，卻沒有給出任何解釋。讓我們簡要地討論一下狄利克雷分布背后的直覺。一個k維狄利克雷分布由一個k維參數向量控制。下面我們展示一個狄利克雷分布的三維例子。基本思想是，alpha值越大，分布被推到中心的概率越大。這種分布使得確定與主題/文檔相關聯的單詞/主題的部分具有很高的靈活性，因為一些主題/文檔可能與一組很大的單詞/主題相關聯，而其他的可能不相關聯。

狄利克雷分布

學習

學習LDA模型的問題稱為“推理”問題。給定觀測變量w，以及超參數?和β，我們如何估計潛變量的后驗概率。

然而，分母中計算的積分在計算上是很麻煩的。

因此，必須使用近似推理。常用的方法是吉布斯抽樣和變分推論。在這篇文章中，我們將重點討論前者。

吉布斯抽樣

利用吉布斯采樣，我們可以避免直接計算棘手的積分。基本的想法是，我們想從p (w |?,β)中采樣來估計這個分布，但我們不能直接這樣做。相反，Gibbs抽樣允許我們迭代地計算一個潛在變量的后驗值，同時固定所有其他變量。通過這種方式，我們可以獲得后驗分布p(θ, z, φ| w, ?, β)。

對于每次迭代，我們交替采樣w，?，β，并固定所有其他變量。算法如下面的偽代碼所示：

For i from 1 to MaxIter:

Sample θ_i} ~p(θz= z_{i-1, φ = φ_{i-1}w, ?, β)
Sample z_i} ~p(zθ =θ_{i, φ = φ_{i-1}w, ?, β)
Sample φ_i} ~p(φθ = θ_{i, z= z_{i}w, ?, β)

由于來自早期迭代的樣本不穩定，我們將丟棄樣本的第一個B次迭代，稱為“老化”。

LDA在推薦系統上的應用

LDA通常用于兩種情況下的推薦系統：

協同過濾(CF)
基于內容的推薦

協同過濾

當LDA應用于基于物品的CF時，物品和用戶類似于我們一直在討論的文檔和單詞(基于用戶的CF正好相反)。換句話說，每個物品都與用戶組(主題)上的分布相關聯，每個用戶組都是用戶的分布。使用LDA，我們可以發現用戶和物品之間的隱藏關系。

基于內容的推薦

第二個應用是基于內容的推薦，非常簡單。我們不只是利用普通的TF-IDF來提取每個物品的文本數據的特征向量，而且還通過LDA來對這些文本數據的主題進行建模。下面提供了用于訓練LDA和推斷給定文檔主題的示例代碼。

from gensim.test.utils import common_textsfrom gensim.corpora.dictionary import Dictionaryfrom gensim.models import LdaModel# Create a corpus from a list of textscommon_dictionary = Dictionary(common_texts)common_corpus = [common_dictionary.doc2bow(text) for text in common_texts]# Train the model on the corpus.lda = LdaModel(common_corpus, num_topics=10)

訓練LDA

# infer the topic distribution of the second corpus.lda[common_corpus[1]]'''output[(0, 0.014287902), (1, 0.014287437), (2, 0.014287902), (3, 0.014285716), (4, 0.014285716), (5, 0.014285714), (6, 0.014285716), (7, 0.014285716), (8, 0.014289378), (9, 0.87141883)]'''

推斷主題的分布向量

“分析LDA在推薦系統上的引用”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注創新互聯網站，小編將為大家輸出更多高質量的實用文章！

成都網站建設公司_創新互聯，為您提供企業網站制作、ChatGPT、關鍵詞優化、企業建站、移動網站建設、網站收錄

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容

bl双性强迫侵犯h_国产在线观看人成激情视频_蜜芽188_被诱拐的少孩全彩啪啪漫画

分析LDA在推薦系統上的引用