Distributions

熵如何取決於位置和規模?

  • June 30, 2019

具有密度函數的連續分佈的 f 被定義為期望的負數 log(f), 因此等於

Hf=log(f(x))f(x)dx.

我們還說任何隨機變量 X 其分佈有密度 f 有熵 Hf. (這個積分是明確定義的,即使當 f 有零,因為 log(f(x))f(x) 在這樣的值下可以取為零。)

什麼時候 XY 是隨機變量 Y=X+μ ( μ 是一個常數), Y 據說是一個版本 X μ. 同樣,當 Y=Xσ ( σ 是一個正常數), Y 據說是一個版本 X 按比例縮放 σ. 將比例與班次相結合給出 Y=Xσ+μ.

這些關係經常發生。例如,改變測量單位 X 移動和縮放它。

熵是多少 Y=Xσ+μ 相關的 X?

由於概率元素 Xf(x)dx, 變量的變化 y=xσ+μ 相當於 x=(yμ)/σ, 從哪裡來

f(x)dx=f(yμσ)d(yμσ)=1σf(yμσ)dy

由此可見,密度 Y

fY(y)=1σf(yμσ).

因此熵 Y

H(Y)=log(1σf(yμσ))1σf(yμσ)dy

其中,在將變量更改回 x=(yμ)/σ, 生產

H(Y)=log(1σf(x))f(x)dx =(log(1σ)+log(f(x)))f(x)dx =log(σ)f(x)dxlog(f(x))f(x)dx =log(σ)+Hf.

這些計算使用了對數的基本特性、積分的線性度以及以下事實: f(x)dx 整合為一(全概率定律)。

結論是

的熵 Y=Xσ+μ 是熵 Xlog(σ).

換句話說,移動一個隨機變量不會改變它的熵(我們可以認為熵取決於概率密度的值,但不取決於這些值出現的位置),同時縮放一個變量(其中,對於 σ1 “拉伸”或“塗抹”它)增加它的熵 log(σ). 這支持了高熵分佈比低熵分佈“更分散”的直覺。


由於這個結果,我們可以自由選擇方便的值 μσ 在計算任何分佈的熵時。例如,Normal 的熵 (μ,σ) 分佈可以通過設置找到 μ=0σ=1. 在這種情況下,密度的對數是

log(f(x))=12log(2π)x2/2,

何處

H=E[12log(2π)X2/2]=12log(2π)+12.

因此,法線的熵 (μ,σ) 分佈是簡單地通過添加 logσ 對於這個結果,給

H=12log(2π)+12+log(σ)=12log(2π,e,σ2)

維基百科報導。

引用自:https://stats.stackexchange.com/questions/415435