Classification

信息增益和互信息:不同還是相等?

  • July 27, 2015

我對信息增益和互信息之間的區別感到非常困惑。更令人困惑的是,我可以找到將它們定義為相同和其他解釋它們差異的兩個來源:

信息增益和互信息是一樣的:

  • 特徵選擇:信息增益 VS 互信息
  • 信息檢索簡介:“證明互信息和信息增益是等價的”,第 285 頁,練習 13.13。
  • 因此它被稱為信息增益,或者更常見的是 X 和 Y 之間的互信息”–> CS769 Spring 2010 Advanced Natural Language Processing, “Information Theory”,講師:Xiaojin Zhu
  • 《信息增益也稱為期望互信息》–> 《文本分類的特徵選擇方法》,Nicolette Nicolosi, http://www.cs.rit.edu/~nan2563/feature_selection.pdf

它們不一樣:

有點混亂

我仍然可以找到其他來源來捍衛相反的論點,但我認為這些就足夠了。誰能告訴我這兩種措施的真正區別/平等?

編輯:其他相關問題

信息增益、互信息及相關措施

有兩種類型的互信息:

  • 逐點互信息和
  • 預期互信息

兩個隨機變量值之間的逐點互信息可以定義為: $$ pMI(x;y) := \log \frac{p(x,y)}{p(x)p(y)} $$

兩個隨機變量之間的預期互信息 $ X $ 和 $ Y $ 可以定義為之間的 Kullback-Leiber Divergence $ p(X,Y) $ 和 $ p(X)p(Y) $ : $$ eMI(X;Y) := \sum_{x,y} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} $$

有時你會發現信息增益的定義為 $ I(X; Y) := H(Y) - H(Y \mid X) $ 與熵 $ H(Y) $ 和條件熵 $ H(Y\mid X) $
, 所以

$$ \begin{align} I(X; Y) &= H(Y) - H(Y \mid X)\ &= - \sum_y p(y) \log p(y) + \sum_{x,y} p(x) p(y\mid x) \log p(y\mid x)\ &= \sum_{x,y} p(x, y) \log{p(y\mid x)} - \sum_{y} \left(\sum_{x}p(x,y)\right) \log p(y)\ &= \sum_{x,y} p(x, y) \log{p(y\mid x)} - \sum_{x,y}p(x, y) \log p(y)\ &= \sum_{x,y} p(x, y) \log \frac{p(y\mid x)}{p(y)}\ &= \sum_{x,y} p(x, y) \log \frac{p(y\mid x)p(x)}{p(y)p(x)}\ &= \sum_{x,y} p(x, y) \log \frac{p(x, y)}{p(y)p(x)}\ &= eMI(X;Y) \end{align} $$

筆記: $ p(y) = \sum_x p(x,y) $

所以預期的互信息和信息增益是相同的(上面有兩個定義)。

引用自:https://stats.stackexchange.com/questions/163463

comments powered by Disqus