Information-Theory

為什麼KL散度是非負的?

  • March 18, 2018

為什麼KL散度是非負的?

從信息論的角度,我有這樣一個直觀的理解:

說有兩個合奏和它們由相同的一組元素組成.和是集合上的不同概率分佈和分別。

從信息論的角度來看,是記錄元素所需的最少位數合奏. 所以期望

可以解釋為我們至少需要多少位來記錄一個元素一般。 由於這個公式為我們平均需要的比特設置了一個下限,因此對於不同的集成這帶來了不同的概率分佈, 它為每個元素給出的界限肯定不會位,這意味著接受期望,

這個平均長度肯定會大於前一個,這導致

我不放從這裡開始和是不同的。 這是我的直覺理解,有沒有純數學的方式證明KL散度是非負的?問題可以表述為:

給定和在實線上都是正數,並且,. 證明

是非負的。 如何證明這一點?還是可以在沒有額外條件的情況下證明這一點?

證明1:

首先請注意對所有人.

我們現在將證明意思就是

對於不等式 (a),我們使用一開始就解釋了不平等。

或者,您可以從吉布斯不等式開始,它指出:

然後,如果我們把左邊的項帶到右邊,我們得到:

我之所以不將其作為單獨的證明包括在內,是因為如果您要我證明吉布斯不等式,我將不得不從 KL 散度的非負性開始,並從頂部進行相同的證明。


證明 2: 我們使用對數和不等式

然後我們可以證明:

我們在 (b) 處使用了對數和不等式。


證明3:

(摘自 Thomas M. Cover 和 Joy A. Thomas 的《信息論要素》一書)

在 (c) 處,我們使用了Jensen 不等式和以下事實是凹函數。

引用自:https://stats.stackexchange.com/questions/335197

comments powered by Disqus