Logistic
為什麼有兩種不同的邏輯損失公式/符號?
我見過兩種類型的邏輯損失公式。我們可以很容易地證明它們是相同的,唯一的區別是標籤的定義.
配方/符號 1,:
在哪裡, 其中邏輯函數映射一個實數到 0,1 間隔。
配方/符號 2,:
選擇一種符號就像選擇一種語言,使用一種或另一種有利也有弊。這兩種符號的優缺點是什麼?
我試圖回答這個問題是,統計界似乎喜歡第一種表示法,而計算機科學界喜歡第二種表示法。
- 第一個符號可以用術語“概率”來解釋,因為邏輯函數轉換一個實數到 0,1 間隔。
- 第二種表示法更簡潔,更容易與鉸鏈損失或 0-1 損失進行比較。
我對嗎?還有其他見解嗎?
短版
- 是的
- 是的
長版
數學建模的好處是它很靈活。這些確實是等效的損失函數,但它們源自非常不同的數據基礎模型。
公式1
第一個符號來自伯努利概率模型, 它通常定義在. 在這個模型中,結果/標籤/類別/預測由一個隨機變量表示緊隨其後的是分配。因此它的可能性是:
為了. 使用 0 和 1 作為指標值可以讓我們將最右邊的分段函數簡化為簡潔的表達式。
正如您所指出的,您可以鏈接輸入數據矩陣通過讓. 從這裡,直接的代數操作表明和第一個一樣在你的問題中(提示:)。所以最小化對數損失等效於伯努利模型的最大似然估計。
這個公式也是廣義線性模型的一個特例,它被公式化為對於可逆的可微函數和分佈在指數族中。
公式 2
實際上..我不熟悉公式 2。但是,定義在是支持向量機制定的標準。擬合 SVM 對應於最大化
這是約束優化問題的拉格朗日形式。它也是一個帶有目標函數 的正則化優化問題的例子
對於一些損失函數和一個標量超參數控制應用於的正則化量(也稱為“收縮”). 鉸鏈損失只是幾種插入可能性之一,其中還包括第二個在你的問題中。