Cart

對基尼雜質的簡單明了的解釋?

  • October 19, 2017

在決策樹分裂的背景下,不明顯看到為什麼基尼雜質

節點 t 雜質的度量。對此有簡單的解釋嗎?

想像一個實驗 k 可能的輸出類別。類別 j 有發生概率 p(j|t) (在哪裡 j=1,..k )

重複實驗兩次並進行以下觀察:

  • 獲得兩個相同類別輸出的概率 jp2(j|t)
  • 獲得兩個相同輸出的概率,獨立於它們的類別,是:kj=1p2(j|t)
  • 因此,獲得兩個不同輸出的概率為:1kj=1p2(j|t)

就是這樣:基尼雜質只是獲得兩個不同輸出的概率,這是一種“雜質度量”。


**注:**基尼指數的另一種表達方式是: kj=1pj(1pj)

這是相同的數量: kj=1pj(1pj)=(kj=1pj)(kj=1p2j)=1kj=1p2j

引用自:https://stats.stackexchange.com/questions/308885