熵告訴我們什麼?
我正在閱讀有關熵的內容,並且很難概念化它在連續情況下的含義。維基頁面聲明如下:
事件的概率分佈,再加上每個事件的信息量,形成一個隨機變量,其期望值為該分佈產生的平均信息量或熵。
因此,如果我計算與連續概率分佈相關的熵,那真正告訴我的是什麼?他們舉了一個關於拋硬幣的例子,所以是離散的情況,但是如果有一種直觀的方法可以通過一個例子來解釋,比如在連續情況下,那就太好了!
如果有幫助,連續隨機變量的熵定義如下:
在哪裡是概率分佈函數。
為了嘗試使這一點更具體,請考慮以下情況,那麼,根據維基百科,熵是
所以現在我們已經計算了一個連續分佈(伽瑪分佈)的熵,所以如果我現在評估這個表達式,, 給定和,這個數量實際上告訴我什麼?
熵告訴你係統中有多少不確定性。假設您正在尋找一隻貓,並且您知道它位於您的房子和 1 英里外的鄰居之間。你的孩子告訴你貓在遠處的概率從你的房子最好用beta 分佈來描述 . 所以一隻貓可能在 0 和 1 之間的任何地方,但更有可能在中間,即.
讓我們將 beta 分佈代入你的方程,然後你得到.
接下來,您問您的妻子,她告訴您,描述她對您的貓的了解的最佳分佈是均勻分佈。如果你把它代入熵方程,你會得到.
制服和 beta 分佈都讓貓在離你家 0 到 1 英里之間的任何地方,但是製服有更多的不確定性,因為你的妻子真的不知道貓藏在哪裡,而孩子們有一些想法,他們認為這更多可能在中間的某個地方。這就是 Beta 的熵低於 Uniform 的原因。
你可能會嘗試其他分佈,也許你的鄰居告訴你貓喜歡靠近任何一個房子,所以他的 beta 分佈是. 它的必須再次低於製服,因為您對在哪裡尋找貓有所了解。猜猜你鄰居的信息熵比你孩子的高還是低?在這些問題上,我隨時都會押注孩子們。
更新:
這是如何運作的?考慮這一點的一種方法是從均勻分佈開始。如果你同意它是最不確定的那個,那就考慮去打擾它。為簡單起見,讓我們看一下離散情況。拿從一個點並將其添加到另一個點,如下所示:
現在,讓我們看看熵是如何變化的:
這意味著來自均勻分佈的任何干擾都會降低熵(不確定性)。為了在連續情況下顯示相同,我必須使用變分法或沿著這條線的東西,但原則上你會得到相同的結果。 更新2:平均值均勻隨機變量本身就是一個隨機變量,它來自貝茨分佈。從CLT我們知道這個新隨機變量的方差縮小為. 因此,其位置的不確定性必須隨著: 我們越來越確定貓在中間。我的下一個情節和 MATLAB 代碼顯示了熵如何從 0 減少(均勻分佈)到. 我在這裡使用distributions31庫。
x = 0:0.01:1; for k=1:5 i = 1 + (k-1)*3; idx(k) = i; f = @(x)bates_pdf(x,i); funb=@(x)f(x).*log(f(x)); fun = @(x)arrayfun(funb,x); h(k) = -integral(fun,0,1); subplot(1,5+1,k) plot(x,arrayfun(f,x)) title(['Bates(x,' num2str(i) ')']) ylim([0 6]) end subplot(1,5+1,5+1) plot(idx,h) title 'Entropy'