過擬合的數學/算法定義

July 2, 2019

是否有過度擬合的數學或算法定義？

通常提供的定義是經典的二維點圖，一條線穿過每個點，驗證損失曲線突然上升。

但是有數學上嚴格的定義嗎？

是的，有一個（稍微更）嚴格的定義：

給定具有一組參數的模型，如果經過一定數量的訓練步驟後，訓練誤差繼續減小而樣本外（測試）誤差開始增加，則可以說該模型過度擬合數據。

在這個例子中，樣本外（測試/驗證）誤差首先與訓練誤差同步減少，然後在第 90 個 epoch 左右開始增加，即過度擬合開始時

另一種看待它的方式是根據偏差和方差。模型的樣本外誤差可以分解為兩個部分：

偏差：由於估計模型的期望值與真實模型的期望值不同而導致的誤差。

方差：由於模型對數據集中的小波動敏感而導致的誤差。

當偏差低但方差高時會發生過度擬合。對於一個數據集 $ X $ 真正的（未知）模型是：

$ Y = f(X) + \epsilon $ - $ \epsilon $ 是數據集中的不可約噪聲，其中 $ E(\epsilon)=0 $ 和 $ Var(\epsilon) = \sigma_{\epsilon} $ ,

估計的模型是：

$ \hat{Y} = \hat{f}(X) $ ,

然後是測試錯誤（對於測試數據點 $ x_t $ ) 可以寫成：

$ Err(x_t) = \sigma_{\epsilon} + Bias^2 + Variance $

和 $ Bias^2 = E[f(x_t)- \hat{f}(x_t)]^2 $ 和 $ Variance = E[\hat{f}(x_t)- E[\hat{f}(x_t)]]^2 $

（嚴格來說，這種分解適用於回歸情況，但類似的分解適用於任何損失函數，即也適用於分類情況）。

上述兩個定義都與模型複雜度相關（根據模型中參數的數量來衡量）：模型的複雜度越高，發生過擬合的可能性就越大。

有關該主題的嚴格數學處理，請參見《統計學習要素》的第 7 章。

Bias-Variance 權衡和方差（即過度擬合）隨著模型複雜性的增加而增加。取自 ESL 第 7 章

引用自：https://stats.stackexchange.com/questions/415779

comments powered by Disqus

過擬合的數學/算法定義

相關問答

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

RMSE 與 MSE 損失函數 - 優化解決方案是等價的嗎？

對訓練集進行插值實際上意味著什麼？

線性回歸和最小二乘回歸一定是一回事嗎？

過擬合比欠擬合“更好”嗎？

為什麼我們在進行 MLE 時將對數似然乘以 -2？