輸出層中的交叉熵或對數似然

February 23, 2016

我讀了這個頁面： http: //neuralnetworksanddeeplearning.com/chap3.html

它說具有交叉熵的 sigmoid 輸出層與具有對數似然的 softmax 輸出層非常相似。

如果我在輸出層使用帶有對數似然的 sigmoid 或帶有交叉熵的 softmax 會發生什麼？好嗎？因為我看到交叉熵（eq.57）之間的方程差別很小：

和對數似然（eq.80）：

負對數似然（eq.80）也稱為多類交叉熵（參考：模式識別和機器學習第 4.3.4 節），因為它們實際上是同一公式的兩種不同解釋。

eq.57 是 Bernoulli 分佈的負對數似然，而 eq.80 是具有一個觀察值的多項分佈的負對數似然（Bernoulli 的多類版本）。

對於二元分類問題，softmax 函數輸出兩個值（介於 0 和 1 之間且總和為 1）來給出每個類的預測。而 sigmoid 函數輸出一個值（介於 0 和 1 之間）來給出一個類的預測（所以另一類是 1-p）。

因此 eq.80 不能直接應用於 sigmoid 輸出，儘管它與 eq.57 的損失基本相同。

另請參閱此答案。

以下是（sigmoid + binary cross-entropy）和（softmax + multiclass cross-entropy）對於二元分類問題的聯繫的簡單說明。

說我們拿作為兩個類別的分割點，對於 sigmoid 輸出它遵循，

這是特徵空間中的決策邊界。對於 softmax 輸出，它遵循

所以它仍然是相同的模型，儘管有兩倍的參數。下面顯示了使用這兩種方法獲得的決策邊界，它們幾乎相同。

引用自：https://stats.stackexchange.com/questions/198038

comments powered by Disqus

輸出層中的交叉熵或對數似然

相關問答

用最大似然法尋找類別

MLE 和非正態性

為什麼最大似然估計量對異常值是可疑的？

溫度在 Softmax 中的作用是什麼？

為什麼我們在進行 MLE 時將對數似然乘以 -2？

具有限制參數的正態分佈的 MLE