Entropy
定性地什麼是交叉熵
這個問題根據公式給出了交叉熵的定量定義。
我正在尋找一個更概念化的定義,維基百科說:
在信息論中,如果基於給定概率分佈 q 而不是“真實”分佈 p 使用編碼方案,則兩個概率分佈之間的交叉熵測量從一組可能性中識別事件所需的平均比特數.
我已經強調了讓我難以理解這一點的部分。我想要一個很好的定義,不需要單獨(預先存在)理解熵。
對概率發生的事件進行編碼你至少需要位(為什麼?請參閱我對“對數在香農熵中的作用是什麼?”的回答)。
所以在最佳編碼中,編碼消息的平均長度是
即原始概率分佈的香農熵。 但是,如果對於概率分佈您使用最適合不同概率分佈的編碼,則編碼消息的平均長度為
是交叉熵,大於. 例如,考慮四個字母(A、B、C、D)的字母表,但 A 和 B 具有相同的頻率,而 C 和 D 根本不出現。所以概率是.
然後,如果我們想以最佳方式對其進行編碼,我們將 A 編碼為 0,將 B 編碼為 1,因此我們每一個字母得到一位編碼消息。(這正是我們概率分佈的香農熵。)
但是如果我們有同樣的概率, 但我們根據所有字母的概率相同的分佈對其進行編碼,然後我們得到每個字母兩位(例如,我們將 A 編碼為 00,B 編碼為 01,C 編碼為 10,D 編碼為 11)。