如何找到語料庫的困惑度

December 16, 2014

困惑度的計算公式為：

在哪裡：是：.

如果我理解正確，這意味著我可以計算單個句子的困惑度。如果我被要求計算整個語料庫的困惑度，這意味著什麼？

首先，只是一個小的更正：如果我們有一個句子包含話，它的困惑是：

如果我們想知道整個語料庫的困惑度包含句子和話，我們必須找出模型可以很好地預測所有句子。所以，讓句子成為其中的一部分. 每個單詞的語料庫的困惑度由下式給出：

所有這些句子在語料庫中一起出現的概率（如果我們認為它們是獨立的）是：

正如您在問題中所說，一個句子出現在語料庫中的概率，在一元模型中，由下式給出，在哪裡是單詞的概率發生。

我們完了。

但是堅持住。由於概率以 0 到 1 之間的實數形式給出，因此乘積很快變小，並且您可能會在某些計算機系統中出現錯誤（想想underflow）。因此，我們可以使用以下轉換來代替加法乘法：

而這就是語料庫對詞數的困惑。如果您對日誌標識感到不舒服，請在 Google 上查找對數標識列表。

進一步閱讀：NGrams ( pdf )。

引用自：https://stats.stackexchange.com/questions/129352

comments powered by Disqus

相關問答

缺乏證據並不是不存在的證據：貝葉斯概率對此有何看法？

March 7, 2021

Machine-Learning

為什麼轉換器使用層範數而不是批量範數？

June 28, 2020

Machine-Learning

LSTM（長短期記憶）死了嗎？

June 18, 2020

Neural-Networks

注意力機制中的鍵、查詢和值到底是什麼？

August 13, 2019

Information-Theory

為什麼KL散度是非負的？

March 18, 2018

Machine-Learning

為什麼我們不使用對稱交叉熵損失？

March 6, 2018