Classification

信息增益和互信息:不同還是相等?

  • July 27, 2015

我對信息增益和互信息之間的區別感到非常困惑。更令人困惑的是,我可以找到將它們定義為相同和其他解釋它們差異的兩個來源:

信息增益和互信息是一樣的:

  • 特徵選擇:信息增益 VS 互信息
  • 信息檢索簡介:“證明互信息和信息增益是等價的”,第 285 頁,練習 13.13。
  • 因此它被稱為信息增益,或者更常見的是 X 和 Y 之間的互信息”–> CS769 Spring 2010 Advanced Natural Language Processing, “Information Theory”,講師:Xiaojin Zhu
  • 《信息增益也稱為期望互信息》–> 《文本分類的特徵選擇方法》,Nicolette Nicolosi, http://www.cs.rit.edu/~nan2563/feature_selection.pdf

它們不一樣:

有點混亂

我仍然可以找到其他來源來捍衛相反的論點,但我認為這些就足夠了。誰能告訴我這兩種措施的真正區別/平等?

編輯:其他相關問題

信息增益、互信息及相關措施

有兩種類型的互信息:

  • 逐點互信息和
  • 預期互信息

兩個隨機變量值之間的逐點互信息可以定義為: pMI(x;y):=logp(x,y)p(x)p(y)

兩個隨機變量之間的預期互信息 XY 可以定義為之間的 Kullback-Leiber Divergence p(X,Y)p(X)p(Y)eMI(X;Y):=x,yp(x,y)logp(x,y)p(x)p(y)

有時你會發現信息增益的定義為 I(X;Y):=H(Y)H(YX) 與熵 H(Y) 和條件熵 H(YX)
, 所以

I(X;Y)=H(Y)H(YX) =yp(y)logp(y)+x,yp(x)p(yx)logp(yx) =x,yp(x,y)logp(yx)y(xp(x,y))logp(y) =x,yp(x,y)logp(yx)x,yp(x,y)logp(y) =x,yp(x,y)logp(yx)p(y) =x,yp(x,y)logp(yx)p(x)p(y)p(x) =x,yp(x,y)logp(x,y)p(y)p(x) =eMI(X;Y)

筆記: p(y)=xp(x,y)

所以預期的互信息和信息增益是相同的(上面有兩個定義)。

引用自:https://stats.stackexchange.com/questions/163463