Text-Mining
如何找到語料庫的困惑度
困惑度的計算公式為:
在哪裡: 是:.
如果我理解正確,這意味著我可以計算單個句子的困惑度。如果我被要求計算整個語料庫的困惑度,這意味著什麼?
首先,只是一個小的更正:如果我們有一個句子包含話,它的困惑是:
如果我們想知道整個語料庫的困惑度包含句子和話,我們必須找出模型可以很好地預測所有句子。所以,讓句子成為其中的一部分. 每個單詞的語料庫的困惑度由下式給出:
所有這些句子在語料庫中一起出現的概率(如果我們認為它們是獨立的)是:
正如您在問題中所說,一個句子出現在語料庫中的概率,在一元模型中,由下式給出, 在哪裡是單詞的概率發生。
我們完了。
但是堅持住。由於概率以 0 到 1 之間的實數形式給出,因此乘積很快變小,並且您可能會在某些計算機系統中出現錯誤(想想underflow)。因此,我們可以使用以下轉換來代替加法乘法:
而這就是語料庫對詞數的困惑。如果您對日誌標識感到不舒服,請在 Google 上查找對數標識列表。
進一步閱讀:NGrams ( pdf )。