在訓練數據中添加噪聲如何等同於正則化？

October 18, 2021

我注意到有些人認為在訓練數據中添加噪聲等同於規範我們的預測參數。這是怎麼回事？

SE 上列出的一些討論該主題的示例更多地集中在 LSTM 和 SVM 上，但我們可以為更簡單的模型（如多元線性回歸）執行此操作嗎？

它將如何影響我們參數的置信區間？

在各種類型的白噪聲（例如高斯與均勻白噪聲）之間選擇效果是否會有差異？

向訓練數據中的回歸量添加噪聲類似於正則化，因為它會導致與收縮相似的結果。

線性回歸是一個有趣的例子。認為是一組獨立同分佈的觀察，並且
人口係數為等於估計的 OLS 係數可以寫成一個示例模擬 . 現在假設我們添加白噪聲並假設 , ，並且那個獨立於 . 我沒有對分佈做出其他假設 .

然後人口係數回歸在（嘈雜的回歸器）等於，
所以，對於更高的值，縮小到零 . 估計器也會縮小到零。我們可以使用測試數據來選擇一個序列通過交叉驗證實現最佳偏差-方差權衡。

如果您想進行推理，您顯然需要進行某種形式的調整，因為估計量是有偏差的，而方差取決於 . 選擇過程也可以扭曲置信區間。

引用自：https://stats.stackexchange.com/questions/548756

相關問答

Machine-Learning

嶺回歸應該使用一種熱編碼還是虛擬變量？

February 25, 2021

為什麼邏輯回歸在高維度上特別容易過擬合？

June 1, 2020

是否有一個典型的例子來說明嶺何時勝過套索？

January 25, 2020

在回歸中，為什麼不默認使用正則化？

January 2, 2020

LASSO 正則化和 LASSO 懲罰之間有區別嗎？

December 18, 2019

在線性回歸中，為什麼正則化也會懲罰參數值？

May 4, 2019