Information-Theory
為什麼KL散度是非負的?
為什麼KL散度是非負的?
從信息論的角度,我有這樣一個直觀的理解:
說有兩個合奏和它們由相同的一組元素組成.和是集合上的不同概率分佈和分別。
從信息論的角度來看,是記錄元素所需的最少位數合奏. 所以期望
可以解釋為我們至少需要多少位來記錄一個元素一般。 由於這個公式為我們平均需要的比特設置了一個下限,因此對於不同的集成這帶來了不同的概率分佈, 它為每個元素給出的界限肯定不會位,這意味著接受期望,
這個平均長度肯定會大於前一個,這導致
我不放從這裡開始和是不同的。 這是我的直覺理解,有沒有純數學的方式證明KL散度是非負的?問題可以表述為:
給定和在實線上都是正數,並且,. 證明
是非負的。 如何證明這一點?還是可以在沒有額外條件的情況下證明這一點?
證明1:
首先請注意對所有人.
我們現在將證明意思就是
對於不等式 (a),我們使用一開始就解釋了不平等。
或者,您可以從吉布斯不等式開始,它指出:
然後,如果我們把左邊的項帶到右邊,我們得到:
我之所以不將其作為單獨的證明包括在內,是因為如果您要我證明吉布斯不等式,我將不得不從 KL 散度的非負性開始,並從頂部進行相同的證明。
證明 2: 我們使用對數和不等式:
然後我們可以證明:
我們在 (b) 處使用了對數和不等式。
證明3:
(摘自 Thomas M. Cover 和 Joy A. Thomas 的《信息論要素》一書)
在 (c) 處,我們使用了Jensen 不等式和以下事實是凹函數。