Entropy

為什麼 KL-Divergence 在其公式中使用“ln”?

  • October 13, 2014

我在 KL-Divergence 公式中註意到使用函數:

在哪裡是一個點並且真實的離散概率分佈和是近似分佈。誰能幫忙解釋一下為什麼這裡使用函數? 為什麼不簡單

有什麼特別的目的嗎?

這個有點直觀,希望能給點思路。

KL散度有幾個數學含義。雖然它用於比較分佈,但它來自信息論領域,它衡量在使用與真實分佈不同的分佈對源進行編碼時丟失了多少“信息”。在信息論中,它也可以定義為熵之間的差——聯合熵和和熵.

所以要討論KL散度,我們需要了解熵的含義。熵是源中“信息”的度量,通常描述您對隨機變量的結果有多“驚訝”。例如,如果你有一個均勻分佈,你總是會感到“驚訝”,因為它可以接受的變量範圍很廣。它具有高熵。但是,如果 RV 是一枚硬幣,那麼你可能不會感到驚訝,因為它會成功 90% 的時間,所以它的熵很低。

熵定義為,這是期望,來源的信息。為什麼是日誌?一個原因是對數性質, 表示由獨立來源組成的來源的信息 () 將有他們的信息的總和。這只能通過使用對數來實現。

引用自:https://stats.stackexchange.com/questions/119833

comments powered by Disqus