信息增益和互信息：不同還是相等？

July 27, 2015

我對信息增益和互信息之間的區別感到非常困惑。更令人困惑的是，我可以找到將它們定義為相同和其他解釋它們差異的兩個來源：

信息增益和互信息是一樣的：

特徵選擇：信息增益 VS 互信息

信息檢索簡介：“證明互信息和信息增益是等價的”，第 285 頁，練習 13.13。

因此它被稱為信息增益，或者更常見的是 X 和 Y 之間的互信息”–> CS769 Spring 2010 Advanced Natural Language Processing, “Information Theory”，講師：Xiaojin Zhu

《信息增益也稱為期望互信息》–> 《文本分類的特徵選擇方法》，Nicolette Nicolosi， http://www.cs.rit.edu/~nan2563/feature_selection.pdf

它們不一樣：

https://math.stackexchange.com/questions/833713/equality-of-information-gain-and-mutual-information

yang –> “A comparison study on Feature Selection in Text Categorization” –> 它們被分開處理，甚至丟棄了互信息，因為它與 IG 相比表現非常糟糕

引用 yang –> “An Extensive Empirical Study of Feature Selection Metrics for Text Classification” – http://www.jmlr.org/papers/volume3/forman03a/forman03a_full.pdf

有點混亂

http://www.researchgate.net/post/What_is_the_difference_between_mutual_information_and_information_gain

我仍然可以找到其他來源來捍衛相反的論點，但我認為這些就足夠了。誰能告訴我這兩種措施的真正區別/平等？

編輯：其他相關問題

信息增益、互信息及相關措施

有兩種類型的互信息：

逐點互信息和

預期互信息

兩個隨機變量值之間的逐點互信息可以定義為：

兩個隨機變量之間的預期互信息 和可以定義為之間的 Kullback-Leiber Divergence 和：

有時你會發現信息增益的定義為與熵和條件熵
，所以

筆記：

所以預期的互信息和信息增益是相同的（上面有兩個定義）。

引用自：https://stats.stackexchange.com/questions/163463

信息增益和互信息：不同還是相等？

編輯：其他相關問題

相關問答

如果使用所有 PC，PCA 是否提供優勢？

缺乏證據並不是不存在的證據：貝葉斯概率對此有何看法？

統計學習要素中的圖 3.6 是否正確？

互信息和 Kullback-Leibler 散度是否等價？

如何以正確的方式減少邏輯回歸模型的預測變量

為什麼選擇特徵選擇套索？