Mathematical-Statistics

計算兩個字符串之間的逐點互信息

  • December 28, 2013

我有一個包含 5000 個句子的數據集。我需要在這個數據集中計算 3-gram 和 5-gram 之間的 PMI。

例如:

5克是:

3克是:

我如何計算PMI(,) 在這個數據集中?確切的公式是什麼?

據我所知,為了計算 PMI(y,z),需要跟踪數據集中的這些計數:

Count(y,z) –> y和z同時出現的次數

Count(i,z) –> z出現的次數

Count(y,i) –> y出現的次數

N –> 樣本量

最終公式為:

在我的問題的上下文中,這些計數如下所列:

(,) : 所有出現的精確 5-gram ""

(一世,) : 所有出現的精確 5-gram ““!!!!!!

(, i) : 以“”形式出現的所有 5-gram",即用數據集中所有可能的詞替換第一個詞和最後一個詞。
所有 3 克。!!!!!!

我的問題是和. 如你所見,等於. 明智嗎?而且我不確定我計算的方式.

讓我們先來看看您對 PMI 的表達是從哪裡來的。根據這篇文章,對於一對結果和,

這就是說,為了正確計算 PMI,您需要以某種方式定義一個規則來關聯您的觀察- 有概率的克數。 在您的特定數據集的上下文中,可以清楚地劃分為 5000 個句子,定義一個非常自然的事情是各種概率-grams 出現在一個句子中。要計算 PMI,我們可以從定義兩個不同的結果開始:

  • 結果 1:3 克出現在給定的句子中
  • 結果 2:5 克出現在給定的句子中

一般來說,3-gram 和 5-gram 不需要包含任何共同的詞來計算一個有效的 PMI,但是如果你想設置,等,您當然可以這樣做並且仍然計算出數學上定義明確的結果。

獲得, 3-gram 和 5-gram 同時出現在同一個句子中的聯合概率,我們可以簡單地計算句子的數量在您的數據集中包含兩者和加在一起,然後除以句子總數; IE,

相似地,和由次數定義和在 5 個句子中的每一個中單獨觀察。因此,PMI 定義為它看起來與您的結果表面上相似,但有一些關鍵差異(例如,您忘記了包含功能等)。這個公式是有效的,不管 3-gram和 5 克有任何共同的詞,並在以下理解下定義:

  • 是數據集中的句子數(在本例中為 5000)
  • 價值,, 和計算次數和與所有單詞同時出現在同一個句子中(即,如果 5-gram 中的 2 個單詞出現在一個句子中,而 3 個單詞出現在下一個句子中,它實際上不算是有效的 5-gram,因為這些詞不是在同一個句子中一起找到的)

在您最初所說的問題中,您考慮了一種非常特殊且不尋常的情況:3-gram 中的每個單詞都與 5-gram 中的單詞相同;IE,,,. 正如您正確觀察到的那樣,在這種獨特的情況下,,即 3-gram 和 5-gram 共同出現的句子數量與 5-gram 出現的總數量相同。因此,在這種特殊情況下,這兩項取消了,我們只剩下

這是一個完全有效的結果,假設您正在嘗試計算這種特殊情況的 PMI。但是,這不是一個非常普遍的結果。通常,您會考慮 3-gram 和 5-gram 的單詞不重疊的情況,因此這些計數值不會取消。

引用自:https://stats.stackexchange.com/questions/80730

comments powered by Disqus