Cart
對基尼雜質的簡單明了的解釋?
在決策樹分裂的背景下,不明顯看到為什麼基尼雜質
是節點 t 雜質的度量。對此有簡單的解釋嗎?
想像一個實驗 $ k $ 可能的輸出類別。類別 $ j $ 有發生概率 $ p(j|t) $ (在哪裡 $ j=1,..k $ )
重複實驗兩次並進行以下觀察:
- 獲得兩個相同類別輸出的概率 $ j $ 是$$ p^2(j|t) $$
- 獲得兩個相同輸出的概率,獨立於它們的類別,是:$$ \sum\limits_{j=1}^k p^2(j|t) $$
- 因此,獲得兩個不同輸出的概率為:$$ 1-\sum\limits_{j=1}^k p^2(j|t) $$
就是這樣:基尼雜質只是獲得兩個不同輸出的概率,這是一種“雜質度量”。
**注:**基尼指數的另一種表達方式是: $$ \sum\limits_{j=1}^k p_j(1-p_j) $$ 這是相同的數量: $$ \sum\limits_{j=1}^k p_j(1-p_j) = \left(\sum\limits_{j=1}^k p_j \right) -\left( \sum\limits_{j=1}^k p^2_j \right) = 1 - \sum\limits_{j=1}^k p^2_j $$