當絕對誤差與大多數問題更相關時，為什麼使用平方誤差作為標準？[複製]

June 5, 2020

我承認該主題的部分內容已在此論壇上討論過。一些例子：

最小化平方誤差是否等於最小化絕對誤差？為什麼平方誤差比後者更受歡迎？

為什麼要平方差而不是取標準差的絕對值？

我仍然不明白的是為什麼OLS回歸仍然是線性回歸問題的默認解決方案。在我看來，在大多數實際情況下，與錯誤相關的成本是線性的或近似線性的。如果我訂購 2 個額外零件，與訂購 1 個額外零件相比，我會產生兩倍的不必要成本。因此，OLS 產生的最優解與現實中的最優解並不對應。我知道，一般來說，您可以最小化在這種情況下最有意義的任何錯誤度量。我的問題不在於在特定情況下使用 MAE 是否可能或一個好主意。它是關於公約的。當實際成本通常是線性的時，為什麼在幾乎所有簡單情況下都最小化 MSE 而不是 MAE？

我見過的最小化 MSE 的案例包括：

MSE 是連續可微分的

平方對大錯誤的懲罰更大

這是有道理的，因為我們假設錯誤是正態分佈的

但是，如果我們可以輕鬆地使用絕對誤差執行回歸，並且我們主要關注預測，那麼我看不出這些點如何導致任何人選擇平方誤差。如果我們要選擇約定，絕對錯誤不是更好嗎？

這篇文章收到了許多對我有用的優秀答案。在這些答案中，以及模組認為回答我問題的其他地方的答案中，除了@richard-hardy 的答案之外，沒有一個能完全解決我困惑的真正根源。

前 5 個答案無法區分估計損失1和預測損失2，這對於回答問題至關重要。先驗地，兩者沒有理由重合。我將在使用線性回歸的點預測的背景下討論這兩種類型的損失。討論可以擴展到線性回歸以外的模型和點預測以外的任務，但本質保持不變。

設置

假設您面臨模型所在的預測問題 $$ y=X\beta+\varepsilon $$ 和 $ \varepsilon\sim D(0,\sigma) $ , $ D $ 是一些帶有位置的概率分佈 $ 0 $ 和規模 $ \sigma $ . 你的目標是預測 $ y_0 $ 給定 $ x_0 $ ，你的點預測將是 $ \hat y_0 $ ，一個函數 $ x_0 $ ，數據樣本，模型和懲罰（獎勵的負數）函數定義在預測誤差上。您面臨的懲罰功能是 $ L_P(y-\hat y) $ . 它的最小值為零（值 $ L_P(0) $ 可以在不失一般性的情況下設置為零）並且在零的兩側不減；這是合理預測損失函數的典型特徵。您可以自由選擇估計損失函數 $ L_E(\cdot) $ 和一個點預測函數 $ y_hat_0 $ . 你對每個人的最佳選擇是什麼？這將取決於誤差分佈 $ D $ 和預測損失函數 $ L_P(\cdot) $ .

估計損失

估計損失指定如何從樣本數據中獲得模型的參數估計。在我們的線性回歸示例中，它涉及 $ \beta $ 和 $ \sigma $ . 您可以通過最小化實際之間的殘差平方和 (OLS) 來估計它們 $ y $ 以及相應的擬合值、絕對殘差之和（中位數的分位數回歸）或其他函數。估計損失的選擇可以通過模型誤差的分佈來確定。在某種技術意義上*最準確的估計器將通過使參數估計器成為最大似然 (ML) 估計器的估計損失來實現。如果模型誤差呈正態分佈（ $ D $ 是正常的），這將是OLS；如果它們按照拉普拉斯分佈分佈（ $ D $ 是拉普拉斯），這將是均值的分位數回歸；

*為簡化起見，給定 ML 估計器，您可能期望模型中的參數估計值比替代估計器提供的更準確。

預測損失

預測損失指定如何懲罰預測錯誤。你不選擇它，它是給定的。（通常是客戶指定它。如果客戶在數學上沒有能力做到這一點，分析師應該通過仔細傾聽客戶的論點來努力做到這一點。）如果預測錯誤導致客戶損失（例如財務損失） ) 以關於零的二次和對稱增長，您將面臨平方預測損失。如果客戶的損失在零附近線性且對稱地增長，那麼您將面臨絕對預測損失。對於您可能面臨的預測損失類型，還有很多其他可能性。

預言

給定模型的參數估計值和興趣點回歸量的值， $ x_0 $ ，你應該選擇點預測 $ \hat y_0 $ 基於預測損失。對於平方損失，您將選擇 $ y_0 $ ，因為真實均值使平均平方損失最小化（其中平均值取自 $ y_0 $ 受制於 $ x=x_0 $ ）。對於絕對損失，您將選擇估計的中位數。對於其他損失函數，您將選擇分佈的其他特徵 $ y_0 $ 你已經建模了。

回到你的問題

為什麼人們經常選擇平方誤差而不是絕對誤差，或者相應地平方損失而不是絕對損失作為估計損失？因為正常錯誤（ $ D $ 正常）在應用程序中很常見，~~可以說~~比拉普拉斯錯誤（ $ D $ 是拉普拉斯）。它們還使回歸估計量在分析上易於處理。然而，它們並不容易計算。OLS 的計算複雜度（對應於正常誤差下的 ML 估計）與中位數的分位數回歸（對應於拉普拉斯誤差下的 ML 估計）並沒有太大的不同。因此，有一些合理的論據支持選擇 OLS 而不是中位數的分位數回歸，或平方誤差而不是絕對誤差。

為什麼人們選擇平方誤差，或者相應的平方損失，作為預測損失? 也許是為了簡單。正如之前的一些答案可能已經提到的那樣，您必須為教科書的展示選擇一些基線；您無法詳細討論所有可能的情況。但是，將平方損失而不是絕對損失作為預測損失的情況不如估計損失的情況令人信服。實際預測損失可能是不對稱的（如之前的一些答案中所討論的），並且不太可能隨著預測誤差呈二次增長而不是線性增長。當然，在實踐中，您應該遵循客戶的預測損失規範。同時，在沒有具體客戶的隨意示例和討論中，我沒有看到一個強烈的論據來支持平方誤差而不是絕對誤差。

1也稱為估計成本、擬合損失、擬合成本、訓練損失、訓練成本。

2也稱為預測成本、評估損失、評估成本。

引用自：https://stats.stackexchange.com/questions/470626

comments powered by Disqus

當絕對誤差與大多數問題更相關時，為什麼使用平方誤差作為標準？[複製]

設置

估計損失

預測損失

預言

回到你的問題

相關問答

線性回歸和最小二乘回歸一定是一回事嗎？

當因變量不是正態分佈時，OLS 估計量遵循什麼分佈？

使用牛頓法優化 OLS

為什麼線性回歸假設在機器學習中不重要？

回歸模型中係數的標準誤差的含義？

什麼是隨機變量，什麼不是回歸模型