Text-Mining

如何使用潛在狄利克雷分配計算保留的困惑度?

  • November 10, 2011

在進行潛在狄利克雷分配(LDA)時,我對如何計算保持樣本的困惑度感到困惑。關於該主題的論文輕而易舉,讓我覺得我錯過了一些明顯的東西……

困惑度被視為 LDA 性能的一個很好的衡量標準。這個想法是你保留一個holdout樣本,在其餘數據上訓練你的LDA,然後計算holdout的困惑度。

困惑度可以通過以下公式給出:

(取自Horster 等人在大型圖像數據庫上的圖像檢索。)

這裡 是文檔的數量(大概在測試樣本中),表示文檔中的單詞,文檔中的字數.

我不清楚如何明智地計算,因為我們沒有保留文檔的主題混合。理想情況下,我們將對所有可能的主題混合的 Dirichlet 先驗進行積分,並使用我們學到的主題多項式。然而,計算這個積分似乎不是一件容易的事。

或者,我們可以嘗試為每個保存的文檔(給定我們學習的主題)學習最佳主題混合,並使用它來計算困惑度。這是可行的,但它並不像 Horter 等人和 Blei 等人的論文所暗示的那樣微不足道,而且我還不清楚結果是否等同於上述理想情況。

這確實是經常被掩蓋的東西。

有些人正在做一些有點厚顏無恥的事情:在每個文檔中保留一定比例的單詞,並在給定文檔-主題混合以及主題-詞混合的情況下使用這些保留詞的預測概率給出。這顯然並不理想,因為它不會評估任何保留文檔的性能。

如建議的那樣,要正確處理保留的文檔,您確實需要“針對所有可能的主題混合先於 Dirichlet 進行集成”。http://people.cs.umass.edu/~wallach/talks/evaluation.pdf回顧了一些解決這個有點不愉快的整體的方法。事實上,我正要自己嘗試實現它,祝你好運!

引用自:https://stats.stackexchange.com/questions/18167

comments powered by Disqus