Regression

避免回歸中的過度擬合:正則化的替代方案

  • July 19, 2017

回歸中的正則化(線性、邏輯…)是減少過擬合最流行的方法。

當目標是預測準確性(不是解釋)時,是否有任何好的替代正則化的方法,特別適用於大數據集(mi/數十億的觀察和數百萬的特徵)?

與您的問題沒有直接關係的兩個要點:

  • 首先,即使目標是準確性而不是解釋,在許多情況下仍然需要正則化,因為它將確保真實測試/生產數據集的“高精度”,而不是用於建模的數據。
  • 其次,如果有十億行和百萬列,則可能不需要正則化。這是因為數據量巨大,而且很多計算模型“能力有限”,即幾乎不可能過擬合。這就是為什麼某些深度神經網絡具有數十億個參數的原因。

現在,關於你的問題。正如 Ben 和 Andrey 所提到的,有一些選項可以替代正則化。我想添加更多示例。

  • 使用更簡單的模型(例如,減少神經網絡中隱藏單元的數量。在 SVM 中使用低階多項式內核。減少高斯混合中的高斯數量等)
  • 儘早停止優化。(例如,減少神經網絡訓練中的epoch,減少優化中的迭代次數(CG、BFGS等)
  • 許多模型的平均值(例如,隨機森林等)

引用自:https://stats.stackexchange.com/questions/292291

comments powered by Disqus