Cart

對基尼雜質的簡單明了的解釋?

  • October 19, 2017

在決策樹分裂的背景下,不明顯看到為什麼基尼雜質

節點 t 雜質的度量。對此有簡單的解釋嗎?

想像一個實驗 $ k $ 可能的輸出類別。類別 $ j $ 有發生概率 $ p(j|t) $ (在哪裡 $ j=1,..k $ )

重複實驗兩次並進行以下觀察:

  • 獲得兩個相同類別輸出的概率 $ j $ 是$$ p^2(j|t) $$
  • 獲得兩個相同輸出的概率,獨立於它們的類別,是:$$ \sum\limits_{j=1}^k p^2(j|t) $$
  • 因此,獲得兩個不同輸出的概率為:$$ 1-\sum\limits_{j=1}^k p^2(j|t) $$

就是這樣:基尼雜質只是獲得兩個不同輸出的概率,這是一種“雜質度量”。


**注:**基尼指數的另一種表達方式是: $$ \sum\limits_{j=1}^k p_j(1-p_j) $$ 這是相同的數量: $$ \sum\limits_{j=1}^k p_j(1-p_j) = \left(\sum\limits_{j=1}^k p_j \right) -\left( \sum\limits_{j=1}^k p^2_j \right) = 1 - \sum\limits_{j=1}^k p^2_j $$

引用自:https://stats.stackexchange.com/questions/308885

comments powered by Disqus