主題模型和詞共現方法
像 LDA 這樣的流行主題模型通常將傾向於共同出現的單詞聚集到同一個主題(集群)中。
此類主題模型與其他簡單的基於共現的聚類方法(如 PMI)之間的主要區別是什麼?(PMI 代表 Pointwise Mutual Information,它用於識別與給定單詞同時出現的單詞。)
最近,大量討論如何從書面文本中提取信息的文獻越來越多。因此,我將僅描述四個里程碑/流行模型及其優點/缺點,從而突出(部分)主要差異(或至少我認為主要/最重要的差異)。
您提到了“最簡單”的方法,即通過將文檔與預定義的術語查詢(如在 PMI 中)進行匹配來對文檔進行聚類。然而,由於單個術語的多義性(多個含義)和同義性(具有相似含義的多個單詞),這些詞彙匹配方法可能不准確。
作為一種補救措施,潛在語義索引 ( LSI ) 試圖通過奇異值分解將術語和文檔映射到潛在語義空間來克服這一問題。LSI 結果是比單個術語更可靠的含義指標。然而,LSI 的一個缺點是它缺乏堅實的概率基礎。
概率 LSI ( pLSI )的發明部分解決了這個問題。在 pLSI 模型中,文檔中的每個單詞都是從通過多項隨機變量指定的混合模型中提取的(這也允許高階共現,如 @sviatoslav hong 提到的)。這是概率文本建模向前邁出的重要一步,但在文檔級別沒有提供概率結構的意義上是不完整的。
潛在狄利克雷分配 ( LDA ) 緩解了這一問題,並且是第一個用於文本聚類的完全概率模型。布萊等人。(2003) 表明 pLSI 是在均勻狄利克雷先驗條件下的最大後驗估計 LDA 模型。
請注意,上述模型(LSI、pLSI、LDA)的共同點是它們基於“詞袋”假設——即在文檔中,單詞是可交換的,即文檔中的單詞順序可以被忽視。這種可交換性假設為 LDA 提供了優於其他方法的進一步理由:假設不僅文檔中的單詞是可交換的,而且文檔,即語料庫中的文檔順序可以忽略,De Finetti 定理指出任何一組可交換的隨機變量都具有混合分佈的表示。因此,如果假設文檔和文檔中的單詞具有可交換性,則需要兩者的混合模型。這正是 LDA 通常可以實現的,但 PMI 或 LSI 卻沒有(甚至 pLSI 也沒有 LDA 漂亮)。