LDA 中的主題連貫性得分如何直觀地有意義?
參考:http: //qpleple.com/topic-coherence-to-evaluate-topic-models/
為了確定要使用 LDA 提取的最佳主題數量,主題連貫性分數始終用於衡量主題提取的好壞:
$ CoherenceScore = \sum_{i<j} score(w_i, w_j) $
在哪裡 $ w_i, w_j $ 是話題的熱門詞
有兩種類型的主題連貫性分數:
- 外部 UCI 措施:
$ SCORE_{UCI}(w_i, w_j) = log \frac{p(w_i, w_j)}{p(w_i)P(w_j)} $
在哪裡
$ p(w_i) = \frac{D_{wikipedia}(w_i)}{D_{wikipedia}} $ 和 $ p(w_i, w_j) = \frac{D_{wikipedia}(w_i, w_j)}{D_{wikipedia}} $
- 內在 UMass 測量:
$ SCORE_{UMass}(w_i, w_j) = log \frac{D(w_i, w_j)+1}{D(w_i)} $
網上可用的教程似乎只是給出了這些措施的公式,但沒有進一步解釋為什麼要這樣公式化,以及為什麼這樣的公式是有意義的。
有人可以直觀地解釋為什麼這些主題連貫性分數可以衡量所選主題數量的好壞嗎?
連貫性分數用於評估學習主題的質量。
對於一個主題,單詞 $ i,j $ 被打進 $ \sum_{i<j} \text{Score}(w_i, w_j) $ 該主題發生的概率最高。您需要指定要考慮的主題中的總分詞數。
對於“UMass”度量,分子 $ D(w_i, w_j) $ 是包含單詞的文檔數 $ w_i $ 和 $ w_j $ 一起出現。1 被添加到這個術語中,因為我們正在使用對數,並且當兩個單詞從不一起出現時,我們需要避免使用 0 的對數。分母是文檔的數量 $ D(w_i) $ 出現在。所以分數更高,如果 $ w_i $ 和 $ w_j $ 相對於頻率而言,在文檔中一起出現很多 $ w_i $ 單獨出現在文檔中。作為主題連貫性的衡量標準,這是有道理的,因為如果一個主題中的兩個詞真的屬於一起,你會期望它們經常一起出現。分母只是根據您正在考慮的單詞的文檔頻率進行調整,因此像“the”這樣的單詞不會獲得人為的高分。
您可以使用主題連貫性分數, $ CS(t) $ 為了 $ t = 1, \ldots, K $ , 確定最優數 $ K^* $ 通過查找主題 $ \arg\max_K \frac{1}{K}\sum_{t=1}^K CS(t) $ . 即採用不同設置的平均主題連貫性得分 $ K $ 看看哪個給出了最高的平均連貫性。