熵如何取決於位置和規模？

June 30, 2019

具有密度函數的連續分佈的熵 $ f $ 被定義為期望的負數 $ \log(f), $ 因此等於

$$ H_f = -\int_{-\infty}^{\infty} \log(f(x)) f(x)\mathrm{d}x. $$

我們還說任何隨機變量 $ X $ 其分佈有密度 $ f $ 有熵 $ H_f. $ （這個積分是明確定義的，即使當 $ f $ 有零，因為 $ \log(f(x))f(x) $ 在這樣的值下可以取為零。）

什麼時候 $ X $ 和 $ Y $ 是隨機變量 $ Y = X+\mu $ ( $ \mu $ 是一個常數）， $ Y $ 據說是一個版本 $ X $ 由 $ \mu. $ 同樣，當 $ Y = X\sigma $ ( $ \sigma $ 是一個正常數）， $ Y $ 據說是一個版本 $ X $ 按比例縮放 $ \sigma. $ 將比例與班次相結合給出 $ Y=X\sigma + \mu. $

這些關係經常發生。例如，改變測量單位 $ X $ 移動和縮放它。

熵是多少 $ Y = X\sigma + \mu $ 相關的 $ X? $

由於概率元素 $ X $ 是 $ f(x)\mathrm{d}x, $ 變量的變化 $ y = x\sigma + \mu $ 相當於 $ x = (y-\mu)/\sigma, $ 從哪裡來

$$ f(x)\mathrm{d}x = f\left(\frac{y-\mu}{\sigma}\right)\mathrm{d}\left(\frac{y-\mu}{\sigma}\right) = \frac{1}{\sigma} f\left(\frac{y-\mu}{\sigma}\right) \mathrm{d}y $$

由此可見，密度 $ Y $ 是

$$ f_Y(y) = \frac{1}{\sigma}f\left(\frac{y-\mu}{\sigma}\right). $$

因此熵 $ Y $ 是

$$ H(Y) = -\int_{-\infty}^{\infty} \log\left(\frac{1}{\sigma}f\left(\frac{y-\mu}{\sigma}\right)\right) \frac{1}{\sigma}f\left(\frac{y-\mu}{\sigma}\right) \mathrm{d}y $$

其中，在將變量更改回 $ x = (y-\mu)/\sigma, $ 生產

$$ \eqalign{ H(Y) &= -\int_{-\infty}^{\infty} \log\left(\frac{1}{\sigma}f\left(x\right)\right) f\left(x\right) \mathrm{d}x \ &= -\int_{-\infty}^{\infty} \left(\log\left(\frac{1}{\sigma}\right) + \log\left(f\left(x\right)\right)\right) f\left(x\right) \mathrm{d}x \ &= \log\left(\sigma\right) \int_{-\infty}^{\infty} f(x) \mathrm{d}x -\int_{-\infty}^{\infty} \log\left(f\left(x\right)\right) f\left(x\right) \mathrm{d}x \ &= \log(\sigma) + H_f. } $$

這些計算使用了對數的基本特性、積分的線性度以及以下事實： $ f(x)\mathrm{d}x $ 整合為一（全概率定律）。

結論是

的熵 $ Y = X\sigma + \mu $ 是熵 $ X $ 加 $ \log(\sigma). $

換句話說，移動一個隨機變量不會改變它的熵（我們可以認為熵取決於概率密度的值，但不取決於這些值出現的位置），同時縮放一個變量（其中，對於 $ \sigma \ge 1 $ “拉伸”或“塗抹”它）增加它的熵 $ \log(\sigma). $ 這支持了高熵分佈比低熵分佈“更分散”的直覺。

由於這個結果，我們可以自由選擇方便的值 $ \mu $ 和 $ \sigma $ 在計算任何分佈的熵時。例如，Normal 的熵 $ (\mu,\sigma) $ 分佈可以通過設置找到 $ \mu=0 $ 和 $ \sigma=1. $ 在這種情況下，密度的對數是

$$ \log(f(x)) = -\frac{1}{2}\log(2\pi) - x^2/2, $$

何處

$$ H = -E[-\frac{1}{2}\log(2\pi) - X^2/2] = \frac{1}{2}\log(2\pi) + \frac{1}{2}. $$

因此，法線的熵 $ (\mu,\sigma) $ 分佈是簡單地通過添加 $ \log\sigma $ 對於這個結果，給

$$ H = \frac{1}{2}\log(2\pi) + \frac{1}{2} + \log(\sigma) = \frac{1}{2}\log(2\pi,e,\sigma^2) $$

據維基百科報導。

引用自：https://stats.stackexchange.com/questions/415435

comments powered by Disqus

熵如何取決於位置和規模？

相關問答

指數分佈的隨機變量的指數分佈？

為什麼對數概率有用？

Box-Cox 變換背後的直覺

從 log y 預測 y 作為因變量

蓋爾·加斯拉姆是誰？

為什麼 Permuted MNIST 適合評估持續學習模型？