在邏輯回歸中使用 MSE 代替 log-loss

June 7, 2016

假設我們用 MSE 替換邏輯回歸的損失函數（通常是對數似然）。也就是說，對數優勢比仍然是參數的線性函數，但最小化估計概率和結果之間的平方差之和（編碼為 0 / 1）：

並最小化代替.

當然，我理解為什麼在某些假設下對數似然是有意義的。但是在機器學習中，通常不做假設，MSE 完全不合理的直觀原因是什麼？（或者是否存在 MSE 可能有意義的情況？）。

簡短的回答是，似然理論的存在是為了指導我們找到最佳解決方案，最大化似然、懲罰似然或貝葉斯後驗密度以外的東西會導致次優估計。其次，最小化誤差平方和會導致對真實概率的無偏估計。在這裡，您不需要無偏估計，因為擁有該估計可能是負數或大於一。為了適當地約束估計，通常需要在概率（而不是 logit）尺度上獲得稍微有偏差的估計（向中間方向）。

不要相信機器學習方法不會做出假設。這個問題與機器學習關係不大。

請注意，單個比例是真實概率的無偏估計，因此只有截距的二元邏輯模型提供無偏估計。具有單個預測變量的二元邏輯模型互斥類別將提供概率的無偏估計。我認為利用可加性假設並允許用戶請求數據范圍之外的估計值的模型（例如，連續的單個預測變量）在概率尺度上會有一個小的偏差，以便尊重約束。

引用自：https://stats.stackexchange.com/questions/217798

相關問答

Maximum-Likelihood

用最大似然法尋找類別

December 6, 2021

Maximum-Likelihood

MLE 和非正態性

October 23, 2021

Maximum-Likelihood

為什麼最大似然估計量對異常值是可疑的？

October 5, 2021

有偏估計量的方差是否總是比無偏估計量小？

September 30, 2021

說黎曼和是積分的無偏估計是錯誤的嗎？

July 24, 2021

Machine-Learning

RMSE 與 MSE 損失函數 - 優化解決方案是等價的嗎？

June 27, 2021