Machine-Learning

為什麼我們不使用對稱交叉熵損失?

  • March 6, 2018

機器學習分類器經常使用交叉熵, 在哪裡是真實分佈(通常是增量)和是類的預測分佈(或者至少可以這樣解釋)。

最小化這與最小化真實和預測之間的 KL 散度相同,因為

在哪裡是熵(對於增量為零,或者在任何情況下都保持模型不變)。 問題:我們為什麼不使用

在哪裡是一個對稱的 KL 散度。請注意,這也試圖最小化預測中的不確定性,這對我來說似乎是一件合理的事情。

考慮像您提到的分類上下文,其中是給定輸入的類上的模型分佈.是“真實”分佈,定義為以每個數據點的真實類為中心的增量函數:

為了th 數據點,交叉熵是:

因為什麼時候,這需要對涉及的項求和, 和將會或未定義。

引用自:https://stats.stackexchange.com/questions/331942

comments powered by Disqus