為什麼有兩種不同的邏輯損失公式/符號？

August 13, 2016

我見過兩種類型的邏輯損失公式。我們可以很容易地證明它們是相同的，唯一的區別是標籤的定義.

配方/符號 1,：

在哪裡, 其中邏輯函數映射一個實數到 0,1 間隔。

配方/符號 2，：

選擇一種符號就像選擇一種語言，使用一種或另一種有利也有弊。這兩種符號的優缺點是什麼？

我試圖回答這個問題是，統計界似乎喜歡第一種表示法，而計算機科學界喜歡第二種表示法。

第一個符號可以用術語“概率”來解釋，因為邏輯函數轉換一個實數到 0,1 間隔。

第二種表示法更簡潔，更容易與鉸鏈損失或 0-1 損失進行比較。

我對嗎？還有其他見解嗎？

短版

是的

是的

長版

數學建模的好處是它很靈活。這些確實是等效的損失函數，但它們源自非常不同的數據基礎模型。

公式1

第一個符號來自伯努利概率模型, 它通常定義在. 在這個模型中，結果/標籤/類別/預測由一個隨機變量表示緊隨其後的是分配。因此它的可能性是：

為了. 使用 0 和 1 作為指標值可以讓我們將最右邊的分段函數簡化為簡潔的表達式。

正如您所指出的，您可以鏈接輸入數據矩陣通過讓. 從這裡，直接的代數操作表明和第一個一樣在你的問題中（提示：）。所以最小化對數損失等效於伯努利模型的最大似然估計。

這個公式也是廣義線性模型的一個特例，它被公式化為對於可逆的可微函數和分佈在指數族中。

公式 2

實際上..我不熟悉公式 2。但是，定義在是支持向量機制定的標準。擬合 SVM 對應於最大化

這是約束優化問題的拉格朗日形式。它也是一個帶有目標函數的正則化優化問題的例子

對於一些損失函數和一個標量超參數控制應用於的正則化量（也稱為“收縮”）. 鉸鏈損失只是幾種插入可能性之一，其中還包括第二個在你的問題中。

引用自：https://stats.stackexchange.com/questions/229645

comments powered by Disqus

為什麼有兩種不同的邏輯損失公式/符號？

短版

長版

公式1

公式 2

相關問答

為什麼我們更關心機器學習中的測試錯誤而不是預期的測試錯誤？

參考：誰引入波浪號“~”表示“有概率分佈……”？

如何解釋 Pearl 的 do 表示法？

為什麼密度函數有時用條件表示法編寫？

XGboost 和深度學習模型中 Tweedie 或泊松損失/目標函數的用途是什麼

為什麼我們在線性回歸中建模噪聲而不是邏輯回歸？