Cart

GINI分數和對數似然比之間的關係是什麼

  • April 23, 2014

我正在研究分類和回歸樹,分割位置的衡量標準之一是 GINI 分數。

現在我習慣於在兩個分佈之間相同數據的似然比的對數為零時確定最佳分割位置,這意味著成員資格的可能性相同。

我的直覺說一定有某種聯繫,GINI 必須在信息的數學理論(香農)中有良好的基礎,但我對 GINI 的理解不夠好,無法自己推導出這種關係。

問題:

  • GINI 雜質分數作為拆分度量的“第一原則”推導是什麼?
  • GINI 分數與似然比對數或其他信息論基礎(香農熵、pdf和交叉熵是其中的一部分)有何關係?

參考:

(添加)

香農的熵被描述為:

將此擴展到我們得到的多變量情況:

條件熵定義如下:

似然比的對數用於突變檢測,並使用這些導出。(我面前沒有推導。)

基尼雜質:

  • GINI 雜質的一般形式是

想法:

  • 分裂是根據雜質的量度進行的。高“純度”可能與低熵相同。該方法可能與熵最小化有關。
  • 假設的基分佈很可能是均勻的,或者可能是高斯分佈的。他們可能會混合分佈。
  • 我想知道休哈特圖表推導是否可以在這裡應用?
  • GINI 雜質看起來像是二項式分佈的概率密度函數的積分,經過 2 次試驗,一次成功。

(額外的)

  • 該形式也與作為超幾何分佈的共軛先驗的 Beta 二項分佈一致。超幾何測試通常用於確定哪些樣本在樣本中的表現過多或過少。與費舍爾的精確檢驗也有關係,不管是什麼(注意自己,去了解更多)。

編輯:我懷疑有一種形式的 GINI 可以很好地與數字邏輯和/或 rb-trees 配合使用。我希望在今年秋天的課堂項目中探索這一點。

我將使用我在這裡使用的相同符號:分類和回歸樹背後的數學

基尼增益和信息增益 () 都是基於雜質的分裂標準。唯一的區別在於雜質函數:

它們實際上是更一般的熵度量(Tsallis' Entropy)的特定值,參數化為:

獲得與和和.

對數似然,也稱為-statistic,是信息增益的線性變換:

根據社區(統計/數據挖掘),人們更喜歡一種衡量標准或另一種衡量標準(此處的相關問題)。它們在決策樹歸納過程中可能非常等效。當有許多類時,對數似然可能會為平衡分區提供更高的分數,儘管 [技術說明:拆分標準的一些屬性。布雷曼 1996]。

基尼增益可以更好,因為它沒有對數,並且您可以在隨機拆分假設下找到其期望值和方差的封閉形式 [Alin Dobra,Johannes Gehrke:分類樹構造中的偏差校正。ICML 2001:90-97]。信息增益並不容易(如果您有興趣,請參閱此處)。

引用自:https://stats.stackexchange.com/questions/94886

comments powered by Disqus