Interpretation

Kullback-Leibler 散度分析

  • August 11, 2014

讓我們考慮以下兩個概率分佈

P       Q
0.01    0.002
0.02    0.004
0.03    0.006
0.04    0.008
0.05    0.01
0.06    0.012
0.07    0.014
0.08    0.016
0.64    0.928

我已經計算出相等的 Kullback-Leibler 散度, 我想知道這個數字一般告訴我什麼?一般來說,Kullback-Leibler 散度告訴我一個概率分佈與另一個概率分佈有多遠,對吧?它類似於熵術語,但就數字而言,它是什麼意思?如果我的結果為 0.49,我可以說大約一個分佈與另一個分佈相差 50%?

Kullback-Leibler 散度不是一個適當的度量,因為它不是對稱的,而​​且它也不滿足三角不等式。所以這兩種分佈所扮演的“角色”是不同的,重要的是要根據所研究的現實世界現象來分配這些角色。

當我們編寫時(OP已經使用以2為底的對數計算了表達式)

我們認為分佈是“目標分佈”(通常被認為是真實分佈),我們通過使用分配。

現在,

在哪裡是分佈的香農熵和稱為“交叉熵”和" - 也是非對稱的。

寫作

(在這裡,我們在交叉熵表達式中寫下分佈的順序也很重要,因為它也是不對稱的),讓我們看到 KL-Divergence 反映了熵的增加,而不是不可避免的分佈熵.

因此,,KL 散度最好不要被解釋為分佈之間的“距離度量”,而是作為熵增加的度量,因為使用了對真實分佈的近似而不是真實分佈本身

所以我們在信息論領域。從大師們那裡聽到它(Cover & Thomas)“

…如果我們知道真實的分佈隨機變量,我們可以構造一個具有平均描述長度的代碼. 相反,如果我們使用代碼進行分發, 我們會需要平均位來描述隨機變量。

同樣聰明的人說

…它不是分佈之間的真實距離,因為它不是對稱的並且不滿足三角不等式。儘管如此,將相對熵視為分佈之間的“距離”通常很有用。

但是後一種方法主要在嘗試最小化KL 散度以優化某些估計過程時很有用。對於其數值本身的解釋,它沒有用,人們應該更喜歡“熵增加”的方法。

對於問題的特定分佈(始終使用以 2 為底的對數)

換句話說,如果你打算使用 25% 以上的位來描述情況而真正的分佈是. 這意味著更長的代碼行、更多的編寫時間、更多的內存、更多的閱讀時間、更高的錯誤概率等等……Cover 和 Thomas 說KL-Divergence(或“相對熵”)並非偶然“衡量由近似值引起的低效率。”

引用自:https://stats.stackexchange.com/questions/111445

comments powered by Disqus