如何解釋微分熵?
我最近閱讀了這篇關於離散概率分佈的熵的文章。它描述了一種將熵視為預期數字位的好方法(至少在使用在您的熵定義中)在您的編碼最佳時需要對消息進行編碼,給定您使用的單詞的概率分佈。
但是,當擴展到像這裡這樣的連續情況時,我相信這種思維方式會失效,因為對於任何連續概率分佈(如果有錯請糾正我),所以我想知道是否有很好的方法來思考連續熵的含義,就像離散情況一樣。
沒有對微分熵的解釋與熵一樣有意義或有用。連續隨機變量的問題在於它們的值通常具有 0 概率,因此需要無限數量的比特來編碼。
如果您通過測量區間的概率來查看離散熵的極限 $ [n\varepsilon, (n + 1)\varepsilon[ $ ,你最終得到
$$ -\int p(x) \log_2 p(x) , dx - \log_2 \varepsilon $$
而不是微分熵。這個量在某種意義上更有意義,但隨著我們採用越來越小的間隔,它會發散到無窮大。這是有道理的,因為我們將需要越來越多的位來編碼我們的隨機值的值落在多個區間中的哪個區間。
對於連續分佈,一個更有用的量是相對熵(也是 Kullback-Leibler 散度)。對於離散分佈:
$$ D_\text{KL}[P || Q] = \sum_x P(x) \log_2 \frac{P(x)}{Q(x)}. $$
它測量當真實分佈為 $ P $ ,但我們使用 $ -\log Q_2(x) $ 要編碼的位 $ x $ . 我們可以取相對熵的極限並得出
$$ D_\text{KL}[p \mid\mid q] = \int p(x) \log_2 \frac{p(x)}{q(x)} , dx, $$
因為 $ \log_2 \varepsilon $ 將取消。對於連續分佈,這對應於在無限小的 bin 的限制中使用的額外位數。對於連續分佈和離散分佈,這始終是非負的。
現在,我們可以將微分熵視為兩者之間的負相對熵 $ p(x) $ 和未歸一化的密度 $ \lambda(x) = 1 $ ,
$$ -\int p(x) \log_2 p(x) , dx = -D_\text{KL}[p \mid\mid \lambda]. $$
它的解釋是使用所需的位數不同 $ -\log_2 \int_{n\varepsilon}^{(n + 1)\varepsilon} p(x) , dx $ 位編碼 $ n $ -th 間隔而不是 $ -\log \varepsilon $ 位。即使前者是最優的,但這種差異現在可能是負的,因為 $ \lambda $ 作弊(不積分為 1),因此平均分配的位數可能比理論上可能的要少。
有關相對熵的精彩介紹,請參閱Sergio Verdu 的演講。