“交叉熵”的定義和起源
沒有引用來源,維基百科定義了離散分佈的交叉熵和成為
誰最先開始使用這個數量?誰發明了這個術語?我看了看:
JE Shore 和 RW Johnson,“最大熵原理和最小交叉熵原理的公理推導”,信息論,IEEE Transactions on,第一卷。26,沒有。1,第 26-37 頁,1980 年 1 月。
我按照他們的介紹
A. Wehrl,“熵的一般性質”,現代物理學評論,卷。50,沒有。2,第 221-260 頁,1978 年 4 月。
誰從不使用這個詞。
也沒有
S. Kullback 和 R. Leibler,“關於信息和充分性”,《數理統計年鑑》,第一卷。22,沒有。1,第 79-86 頁,1951 年。
我看了看
TM Cover 和 JA Thomas,信息論要素(電信和信號處理中的 Wiley 系列)。威利交叉科學,2006 年。
和
I. Good,“假設公式的最大熵,尤其是多維列聯表”,《數理統計年鑑》,卷。34,沒有。3,第 911-934 頁,1963 年。
但兩篇論文都將交叉熵定義為 KL 散度的同義詞。
原紙
CE Shannon,“通信的數學理論”,貝爾系統技術期刊,卷。1948 年 2 月 27 日。
沒有提到交叉熵(並且對“相對熵”有一個奇怪的定義:“源的熵與其可能具有的最大值之比,同時仍限制為相同的符號”)。
最後,我查看了 Tribus 的一些舊書和論文。
有誰知道上面的等式叫什麼,是誰發明的或者有一個很好的介紹?
它似乎與Kullback-Leibler 散度的概念密切相關(參見Kullback 和 Leibler,1951 年)。在他們的文章 Kullback 和 Leibler 中討論了區分兩個假設的平均信息(定義為在等式中。) 並引用 Shannon 和 Weaver 的The Mathematical Theory of Communication (1949) 和 p. 18-19。76 維納的控制論(1948 年)。
編輯:
其他別名包括Kullback-Leibler 信息量度、相對信息量度、交叉熵、I-散度和Kerridge 不准確性。