“交叉熵”的定義和起源

July 10, 2012

沒有引用來源，維基百科定義了離散分佈的交叉熵和成為

誰最先開始使用這個數量？誰發明了這個術語？我看了看：

JE Shore 和 RW Johnson，“最大熵原理和最小交叉熵原理的公理推導”，信息論，IEEE Transactions on，第一卷。26，沒有。1，第 26-37 頁，1980 年 1 月。

我按照他們的介紹

A. Wehrl，“熵的一般性質”，現代物理學評論，卷。50，沒有。2，第 221-260 頁，1978 年 4 月。

誰從不使用這個詞。

也沒有

S. Kullback 和 R. Leibler，“關於信息和充分性”，《數理統計年鑑》，第一卷。22，沒有。1，第 79-86 頁，1951 年。

我看了看

TM Cover 和 JA Thomas，信息論要素（電信和信號處理中的 Wiley 系列）。威利交叉科學，2006 年。

和

I. Good，“假設公式的最大熵，尤其是多維列聯表”，《數理統計年鑑》，卷。34，沒有。3，第 911-934 頁，1963 年。

但兩篇論文都將交叉熵定義為 KL 散度的同義詞。

原紙

CE Shannon，“通信的數學理論”，貝爾系統技術期刊，卷。1948 年 2 月 27 日。

沒有提到交叉熵（並且對“相對熵”有一個奇怪的定義：“源的熵與其可能具有的最大值之比，同時仍限制為相同的符號”）。

最後，我查看了 Tribus 的一些舊書和論文。

有誰知道上面的等式叫什麼，是誰發明的或者有一個很好的介紹？

它似乎與Kullback-Leibler 散度的概念密切相關（參見Kullback 和 Leibler，1951 年）。在他們的文章 Kullback 和 Leibler 中討論了區分兩個假設的平均信息（定義為在等式中。) 並引用 Shannon 和 Weaver 的The Mathematical Theory of Communication (1949) 和 p. 18-19。76 維納的控制論（1948 年）。

編輯：

其他別名包括Kullback-Leibler 信息量度、相對信息量度、交叉熵、I-散度和Kerridge 不准確性。

引用自：https://stats.stackexchange.com/questions/31985

“交叉熵”的定義和起源

相關問答

蓋爾·加斯拉姆是誰？

熵如何取決於位置和規模？

交叉熵和KL散度有什麼區別？

為什麼我們不使用對稱交叉熵損失？

對數基數在熵中為 2 的意義是什麼？[複製]

如何解釋微分熵？