Regression

在訓練數據中添加噪聲如何等同於正則化?

  • October 18, 2021

我注意到有些人認為在訓練數據中添加噪聲等同於規範我們的預測參數。這是怎麼回事?

  1. SE 上列出的一些討論該主題的示例更多地集中在 LSTM 和 SVM 上,但我們可以為更簡單的模型(如多元線性回歸)執行此操作嗎?
  2. 它將如何影響我們參數的置信區間?
  3. 在各種類型的白噪聲(例如高斯與均勻白噪聲)之間選擇效果是否會有差異?

向訓練數據中的回歸量添加噪聲類似於正則化,因為它會導致與收縮相似的結果。

線性回歸是一個有趣的例子。認為 $ (Y_i,X_i)_{i=1}^n $ 是一組獨立同分佈的觀察,並且 $$ Y_i = \beta_0 + \beta_1X_i + U_i \qquad \mathbb{E}[U_i \mid X_i] = 0 $$ 人口係數為 $ \beta_1 $ 等於 $$ \beta_1 = \frac{Cov(Y_i,X_i)}{Var(X_i)} $$ 估計的 OLS 係數 $ \hat{\beta}_1 $ 可以寫成一個示例模擬 $ \beta_1 $ . 現在假設我們添加白噪聲 $ Z_i = X_i + \varepsilon_i $ 並假設 $ \mathbb{E}[\varepsilon_i] = 0 $ , $ Var(\varepsilon_i) = \sigma^2 $ ,並且那個 $ \varepsilon_i $ 獨立於 $ Y_i,X_i $ . 我沒有對分佈做出其他假設 $ \varepsilon_i $ .

然後人口係數回歸 $ Y_i $ 在 $ Z_i $ (嘈雜的回歸器)等於, $$ \tilde{\beta}_1 = \frac{Cov(Y_i,Z_i)}{Var(Z_i)} = \frac{Cov(Y_i,X_i + \varepsilon_i)}{Var(X_i + \varepsilon_i)} = \frac{Cov(Y_i,X_i)}{Var(X_i) + \sigma^2} = \frac{Var(X_i)}{Var(X_i)+\sigma^2} \times \beta_1 $$ 所以, $ \tilde{\beta}_1 $ 對於更高的值,縮小到零 $ \sigma^2 $ . 估計器 $ \tilde{\beta}_1 $ 也會縮小到零。我們可以使用測試數據來選擇一個序列 $ \sigma_n^2 \to 0 $ 通過交叉驗證實現最佳偏差-方差權衡。

如果您想進行推理,您顯然需要進行某種形式的調整,因為估計量是有偏差的,而方差取決於 $ \sigma^2 $ . 選擇過程 $ \sigma^2 $ 也可以扭曲置信區間。

引用自:https://stats.stackexchange.com/questions/548756

comments powered by Disqus