Least-Squares
最小化平方誤差是否等於最小化絕對誤差?為什麼平方誤差比後者更受歡迎?
當我們進行線性回歸時適合一堆數據點,經典方法最小化平方誤差。長期以來,我一直對一個問題感到困惑,即最小化平方誤差會產生與最小化絕對誤差相同的結果嗎?如果不是,為什麼最小化平方誤差更好?除了“目標函數是可微的”之外,還有其他原因嗎?
平方誤差也廣泛用於評估模型性能,但絕對誤差不太流行。為什麼平方誤差比絕對誤差更常用?如果不涉及求導,計算絕對誤差就像計算平方誤差一樣容易,那麼為什麼平方誤差如此普遍?有什麼獨特的優勢可以解釋它的流行嗎?
謝謝你。
最小化平方誤差 (MSE) 絕對不同於最小化誤差的絕對偏差 (MAD)。MSE 提供了平均響應以,而 MAD 提供的中值響應為以.
從歷史上看,拉普拉斯最初認為最大觀測誤差是衡量模型正確性的標準。他很快轉而考慮MAD。由於他無法精確解決這兩種情況,他很快考慮了微分 MSE。他自己和高斯(似乎同時)推導出了正規方程,這是這個問題的封閉形式的解決方案。如今,通過線性規劃求解 MAD 相對容易。然而,眾所周知,線性規劃沒有封閉形式的解決方案。
從優化的角度來看,兩者都對應於凸函數。然而,MSE 是可微分的,因此允許基於梯度的方法,比它們的不可微分對應物有效得多。MAD 在.
另一個理論原因是,在貝葉斯設置中,當假設模型參數的先驗一致時,MSE 會產生正態分佈誤差,這已被視為該方法正確性的證明。理論家喜歡正態分佈是因為他們相信這是一個經驗事實,而實驗家喜歡它是因為他們相信這是一個理論結果。
MSE 得到廣泛接受的最後一個原因是它基於歐幾里德距離(實際上它是歐幾里得巴拿赫空間上的投影問題的解決方案),考慮到我們的幾何現實,這非常直觀。