Cart
對基尼雜質的簡單明了的解釋?
在決策樹分裂的背景下,不明顯看到為什麼基尼雜質
是節點 t 雜質的度量。對此有簡單的解釋嗎?
想像一個實驗 k 可能的輸出類別。類別 j 有發生概率 p(j|t) (在哪裡 j=1,..k )
重複實驗兩次並進行以下觀察:
- 獲得兩個相同類別輸出的概率 j 是p2(j|t)
- 獲得兩個相同輸出的概率,獨立於它們的類別,是:k∑j=1p2(j|t)
- 因此,獲得兩個不同輸出的概率為:1−k∑j=1p2(j|t)
就是這樣:基尼雜質只是獲得兩個不同輸出的概率,這是一種“雜質度量”。
**注:**基尼指數的另一種表達方式是: k∑j=1pj(1−pj)
這是相同的數量: k∑j=1pj(1−pj)=(k∑j=1pj)−(k∑j=1p2j)=1−k∑j=1p2j