Text-Mining

如何找到語料庫的困惑度

  • December 16, 2014

困惑度的計算公式為:

在哪裡: 是:.

如果我理解正確,這意味著我可以計算單個句子的困惑度。如果我被要求計算整個語料庫的困惑度,這意味著什麼?

首先,只是一個小的更正:如果我們有一個句子包含話,它的困惑是:

如果我們想知道整個語料庫的困惑度包含句子和話,我們必須找出模型可以很好地預測所有句子。所以,讓句子成為其中的一部分. 每個單詞的語料庫的困惑度由下式給出:

所有這些句子在語料庫中一起出現的概率(如果我們認為它們是獨立的)是:

正如您在問題中所說,一個句子出現在語料庫中的概率,在一元模型中,由下式給出, 在哪裡是單詞的概率發生。

我們完了。

但是堅持住。由於概率以 0 到 1 之間的實數形式給出,因此乘積很快變小,並且您可能會在某些計算機系統中出現錯誤(想想underflow)。因此,我們可以使用以下轉換來代替加法乘法:

而這就是語料庫對詞數的困惑。如果您對日誌標識感到不舒服,請在 Google 上查找對數標識列表。

進一步閱讀:NGrams ( pdf )。

引用自:https://stats.stackexchange.com/questions/129352

comments powered by Disqus