Machine-Learning
為什麼我們不使用對稱交叉熵損失?
機器學習分類器經常使用交叉熵, 在哪裡是真實分佈(通常是增量)和是類的預測分佈(或者至少可以這樣解釋)。
最小化這與最小化真實和預測之間的 KL 散度相同,因為
在哪裡是熵(對於增量為零,或者在任何情況下都保持模型不變)。 問題:我們為什麼不使用
在哪裡是一個對稱的 KL 散度。請注意,這也試圖最小化預測中的不確定性,這對我來說似乎是一件合理的事情。
考慮像您提到的分類上下文,其中是給定輸入的類上的模型分佈.是“真實”分佈,定義為以每個數據點的真實類為中心的增量函數:
為了th 數據點,交叉熵是:
因為什麼時候,這需要對涉及的項求和, 和將會或未定義。