信息增益和互信息:不同還是相等?
我對信息增益和互信息之間的區別感到非常困惑。更令人困惑的是,我可以找到將它們定義為相同和其他解釋它們差異的兩個來源:
信息增益和互信息是一樣的:
- 特徵選擇:信息增益 VS 互信息
- 信息檢索簡介:“證明互信息和信息增益是等價的”,第 285 頁,練習 13.13。
- 因此它被稱為信息增益,或者更常見的是 X 和 Y 之間的互信息”–> CS769 Spring 2010 Advanced Natural Language Processing, “Information Theory”,講師:Xiaojin Zhu
- 《信息增益也稱為期望互信息》–> 《文本分類的特徵選擇方法》,Nicolette Nicolosi, http://www.cs.rit.edu/~nan2563/feature_selection.pdf
它們不一樣:
- https://math.stackexchange.com/questions/833713/equality-of-information-gain-and-mutual-information
- yang –> “A comparison study on Feature Selection in Text Categorization” –> 它們被分開處理,甚至丟棄了互信息,因為它與 IG 相比表現非常糟糕
- 引用 yang –> “An Extensive Empirical Study of Feature Selection Metrics for Text Classification” – http://www.jmlr.org/papers/volume3/forman03a/forman03a_full.pdf
有點混亂
我仍然可以找到其他來源來捍衛相反的論點,但我認為這些就足夠了。誰能告訴我這兩種措施的真正區別/平等?
編輯:其他相關問題
有兩種類型的互信息:
- 逐點互信息和
- 預期互信息
兩個隨機變量值之間的逐點互信息可以定義為: $$ pMI(x;y) := \log \frac{p(x,y)}{p(x)p(y)} $$
兩個隨機變量之間的預期互信息 $ X $ 和 $ Y $ 可以定義為之間的 Kullback-Leiber Divergence $ p(X,Y) $ 和 $ p(X)p(Y) $ : $$ eMI(X;Y) := \sum_{x,y} p(x, y) \log \frac{p(x, y)}{p(x)p(y)} $$
有時你會發現信息增益的定義為 $ I(X; Y) := H(Y) - H(Y \mid X) $ 與熵 $ H(Y) $ 和條件熵 $ H(Y\mid X) $
, 所以$$ \begin{align} I(X; Y) &= H(Y) - H(Y \mid X)\ &= - \sum_y p(y) \log p(y) + \sum_{x,y} p(x) p(y\mid x) \log p(y\mid x)\ &= \sum_{x,y} p(x, y) \log{p(y\mid x)} - \sum_{y} \left(\sum_{x}p(x,y)\right) \log p(y)\ &= \sum_{x,y} p(x, y) \log{p(y\mid x)} - \sum_{x,y}p(x, y) \log p(y)\ &= \sum_{x,y} p(x, y) \log \frac{p(y\mid x)}{p(y)}\ &= \sum_{x,y} p(x, y) \log \frac{p(y\mid x)p(x)}{p(y)p(x)}\ &= \sum_{x,y} p(x, y) \log \frac{p(x, y)}{p(y)p(x)}\ &= eMI(X;Y) \end{align} $$
筆記: $ p(y) = \sum_x p(x,y) $
所以預期的互信息和信息增益是相同的(上面有兩個定義)。