Classification
信息增益和互信息:不同還是相等?
我對信息增益和互信息之間的區別感到非常困惑。更令人困惑的是,我可以找到將它們定義為相同和其他解釋它們差異的兩個來源:
信息增益和互信息是一樣的:
- 特徵選擇:信息增益 VS 互信息
- 信息檢索簡介:“證明互信息和信息增益是等價的”,第 285 頁,練習 13.13。
- 因此它被稱為信息增益,或者更常見的是 X 和 Y 之間的互信息”–> CS769 Spring 2010 Advanced Natural Language Processing, “Information Theory”,講師:Xiaojin Zhu
- 《信息增益也稱為期望互信息》–> 《文本分類的特徵選擇方法》,Nicolette Nicolosi, http://www.cs.rit.edu/~nan2563/feature_selection.pdf
它們不一樣:
- https://math.stackexchange.com/questions/833713/equality-of-information-gain-and-mutual-information
- yang –> “A comparison study on Feature Selection in Text Categorization” –> 它們被分開處理,甚至丟棄了互信息,因為它與 IG 相比表現非常糟糕
- 引用 yang –> “An Extensive Empirical Study of Feature Selection Metrics for Text Classification” – http://www.jmlr.org/papers/volume3/forman03a/forman03a_full.pdf
有點混亂
我仍然可以找到其他來源來捍衛相反的論點,但我認為這些就足夠了。誰能告訴我這兩種措施的真正區別/平等?
編輯:其他相關問題
有兩種類型的互信息:
- 逐點互信息和
- 預期互信息
兩個隨機變量值之間的逐點互信息可以定義為: pMI(x;y):=logp(x,y)p(x)p(y)
兩個隨機變量之間的預期互信息 X 和 Y 可以定義為之間的 Kullback-Leiber Divergence p(X,Y) 和 p(X)p(Y) : eMI(X;Y):=∑x,yp(x,y)logp(x,y)p(x)p(y)
有時你會發現信息增益的定義為 I(X;Y):=H(Y)−H(Y∣X) 與熵 H(Y) 和條件熵 H(Y∣X)
, 所以I(X;Y)=H(Y)−H(Y∣X) =−∑yp(y)logp(y)+∑x,yp(x)p(y∣x)logp(y∣x) =∑x,yp(x,y)logp(y∣x)−∑y(∑xp(x,y))logp(y) =∑x,yp(x,y)logp(y∣x)−∑x,yp(x,y)logp(y) =∑x,yp(x,y)logp(y∣x)p(y) =∑x,yp(x,y)logp(y∣x)p(x)p(y)p(x) =∑x,yp(x,y)logp(x,y)p(y)p(x) =eMI(X;Y)
筆記: p(y)=∑xp(x,y)
所以預期的互信息和信息增益是相同的(上面有兩個定義)。