Neural-Networks

骰子係數損失函數與交叉熵

January 4, 2018

在訓練像素分割神經網絡（例如全卷積網絡）時，您如何決定使用交叉熵損失函數與 Dice 係數損失函數？

我意識到這是一個簡短的問題，但不太確定要提供哪些其他信息。我查看了一堆關於這兩個損失函數的文檔，但無法直觀地了解何時使用其中一個。

使用交叉熵而不是骰子係數或類似的 IoU 度量的一個令人信服的原因是梯度更好。

logits 的交叉熵梯度類似於，在哪裡是 softmax 輸出和是目標。同時，如果我們嘗試將骰子係數寫成可微分形式：或者，然後得到的梯度wrt 更醜：和 . 很容易想像兩者兼有的情況和很小，並且梯度會爆炸到一些巨大的值。一般來說，訓練似乎會變得更加不穩定。

人們嘗試直接使用骰子係數或 IoU 的主要原因是實際目標是最大化這些指標，而交叉熵只是一個更容易使用反向傳播最大化的代理。此外，Dice 係數通過設計在類不平衡問題上表現更好：

但是，通常只需通過為每個類分配損失乘數來解決類不平衡問題，這樣網絡就很容易忽略不經常出現的類，因此在這些情況下是否真的需要 Dice 係數尚不清楚。

我將從交叉熵損失開始，這似乎是訓練分割網絡的標準損失，除非有一個真正令人信服的理由使用 Dice 係數。

引用自：https://stats.stackexchange.com/questions/321460

相關問答

Machine-Learning

為什麼我們更關心機器學習中的測試錯誤而不是預期的測試錯誤？

July 28, 2021

Machine-Learning

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

October 19, 2020

Machine-Learning

（為什麼）絕對損失不是正確的計分規則嗎？

June 23, 2020

Machine-Learning

機器學習中的損失函數——如何約束？

April 30, 2020

Neural-Networks

損失函數的二階近似（深度學習書籍，7.33）

April 24, 2019

為什麼在非二進制數據的自動編碼器中使用二進制交叉熵（或對數損失）

February 26, 2019