最小化平方誤差是否等於最小化絕對誤差？為什麼平方誤差比後者更受歡迎？

April 18, 2015

當我們進行線性回歸時適合一堆數據點，經典方法最小化平方誤差。長期以來，我一直對一個問題感到困惑，即最小化平方誤差會產生與最小化絕對誤差相同的結果嗎？如果不是，為什麼最小化平方誤差更好？除了“目標函數是可微的”之外，還有其他原因嗎？

平方誤差也廣泛用於評估模型性能，但絕對誤差不太流行。為什麼平方誤差比絕對誤差更常用？如果不涉及求導，計算絕對誤差就像計算平方誤差一樣容易，那麼為什麼平方誤差如此普遍？有什麼獨特的優勢可以解釋它的流行嗎？

謝謝你。

最小化平方誤差 (MSE) 絕對不同於最小化誤差的絕對偏差 (MAD)。MSE 提供了平均響應以，而 MAD 提供的中值響應為以.

從歷史上看，拉普拉斯最初認為最大觀測誤差是衡量模型正確性的標準。他很快轉而考慮MAD。由於他無法精確解決這兩種情況，他很快考慮了微分 MSE。他自己和高斯（似乎同時）推導出了正規方程，這是這個問題的封閉形式的解決方案。如今，通過線性規劃求解 MAD 相對容易。然而，眾所周知，線性規劃沒有封閉形式的解決方案。

從優化的角度來看，兩者都對應於凸函數。然而，MSE 是可微分的，因此允許基於梯度的方法，比它們的不可微分對應物有效得多。MAD 在.

另一個理論原因是，在貝葉斯設置中，當假設模型參數的先驗一致時，MSE 會產生正態分佈誤差，這已被視為該方法正確性的證明。理論家喜歡正態分佈是因為他們相信這是一個經驗事實，而實驗家喜歡它是因為他們相信這是一個理論結果。

MSE 得到廣泛接受的最後一個原因是它基於歐幾里德距離（實際上它是歐幾里得巴拿赫空間上的投影問題的解決方案），考慮到我們的幾何現實，這非常直觀。

引用自：https://stats.stackexchange.com/questions/147001

最小化平方誤差是否等於最小化絕對誤差？為什麼平方誤差比後者更受歡迎？

相關問答

使用跨越負標度的標準偏差構建誤差線，而變量本身不應該是負數，這是不是很糟糕？

評估預測分佈的質量

殘差是“預測減去實際”還是“實際減去預測”

為什麼我們使用殘差來檢驗回歸誤差的假設？

錯誤率是正則化參數 lambda 的凸函數嗎？

MAPE 是一個很好的誤差測量統計量嗎？還有什麼替代品？