熵如何取決於位置和規模?
具有密度函數的連續分佈的熵 f 被定義為期望的負數 log(f), 因此等於
Hf=−∫∞−∞log(f(x))f(x)dx.
我們還說任何隨機變量 X 其分佈有密度 f 有熵 Hf. (這個積分是明確定義的,即使當 f 有零,因為 log(f(x))f(x) 在這樣的值下可以取為零。)
什麼時候 X 和 Y 是隨機變量 Y=X+μ ( μ 是一個常數), Y 據說是一個版本 X 由 μ. 同樣,當 Y=Xσ ( σ 是一個正常數), Y 據說是一個版本 X 按比例縮放 σ. 將比例與班次相結合給出 Y=Xσ+μ.
這些關係經常發生。例如,改變測量單位 X 移動和縮放它。
熵是多少 Y=Xσ+μ 相關的 X?
由於概率元素 X 是 f(x)dx, 變量的變化 y=xσ+μ 相當於 x=(y−μ)/σ, 從哪裡來
f(x)dx=f(y−μσ)d(y−μσ)=1σf(y−μσ)dy
由此可見,密度 Y 是
fY(y)=1σf(y−μσ).
因此熵 Y 是
H(Y)=−∫∞−∞log(1σf(y−μσ))1σf(y−μσ)dy
其中,在將變量更改回 x=(y−μ)/σ, 生產
H(Y)=−∫∞−∞log(1σf(x))f(x)dx =−∫∞−∞(log(1σ)+log(f(x)))f(x)dx =log(σ)∫∞−∞f(x)dx−∫∞−∞log(f(x))f(x)dx =log(σ)+Hf.
這些計算使用了對數的基本特性、積分的線性度以及以下事實: f(x)dx 整合為一(全概率定律)。
結論是
的熵 Y=Xσ+μ 是熵 X 加 log(σ).
換句話說,移動一個隨機變量不會改變它的熵(我們可以認為熵取決於概率密度的值,但不取決於這些值出現的位置),同時縮放一個變量(其中,對於 σ≥1 “拉伸”或“塗抹”它)增加它的熵 log(σ). 這支持了高熵分佈比低熵分佈“更分散”的直覺。
由於這個結果,我們可以自由選擇方便的值 μ 和 σ 在計算任何分佈的熵時。例如,Normal 的熵 (μ,σ) 分佈可以通過設置找到 μ=0 和 σ=1. 在這種情況下,密度的對數是
log(f(x))=−12log(2π)−x2/2,
何處
H=−E[−12log(2π)−X2/2]=12log(2π)+12.
因此,法線的熵 (μ,σ) 分佈是簡單地通過添加 logσ 對於這個結果,給
H=12log(2π)+12+log(σ)=12log(2π,e,σ2)
據維基百科報導。