Regression

當我們繪製數據然後在回歸模型中使用非線性變換時,我們是否在窺探數據?

  • August 22, 2020

我一直在閱讀有關數據窺探的信息,以及它如何意味著樣本內錯誤不能提供樣本外錯誤的良好近似值。

假設給定一個數據集 $ (x_1,y_1),(x_2,y_2),…,(x_n,y_n) $ ,我們繪製並觀察變量之間的二次關係。所以我們假設 $$ y_i = \beta_0 + \beta_1 x_i + \beta_2 x_i^2 + \varepsilon, $$ 在哪裡 $ \varepsilon $ 是表示噪聲的變量。

這不是數據窺探嗎?我們讓數據影響我們的模型。那麼這對係數有什麼影響 $ \beta_0,\beta_1,\beta_2 $ 我們發現;在使用不同的輸入變量進行未來預測時,它們是否被認為是可靠的?

我之所以問,是因為有無數關於回歸的筆記/文章/書籍/等。他們建議查看數據,然後選擇一個看起來很適合數據的模型。例如,這裡作者有一些數據,嘗試了一個線性模型,當發現它不令人滿意時,他轉向了一個更好地擬合數據的二次模型。同樣,在這裡,人們正在討論對數轉換,並且給原始發布者以下建議:

如果沒有理論可以指導您,則對變量之間的關係進行圖形探索,或者同時查看擬合與觀察圖將告訴您哪個模型是合適的。

那麼當我們的模型基於對繪製數據的觀察時,這些數據是否在窺探?如果不是,那麼有人可以解釋為什麼這不是數據窺探嗎?

如果是數據監聽,那麼:

  1. 這對樣本外性能有什麼影響?
  2. 我們應該做些什麼來避免/克服回歸模型中的數據窺探問題,以便我們獲得良好的樣本外性能?

有一種方法可以估計樣本外性能的後果,前提是建模中的決策過程可以充分轉變為自動化或半自動化過程。那就是在數據集的多個引導重採樣上重複*整個建模過程。*這與估計建模過程的樣本外性能差不多。

回想一下引導原理

自舉的基本思想是,從樣本數據(樣本→總體)推斷總體可以通過對樣本數據重新採樣並從重新採樣的數據(重新採樣→樣本)執行關於樣本的推斷來建模。由於總體是未知的,因此樣本統計量與其總體值的真實誤差是未知的。在 bootstrap-resamples 中,“人口”實際上是樣本,這是已知的;因此,從重採樣數據(重採樣→樣本)中推斷出“真實”樣本的質量是可測量的。

遵循該原則,如果您對數據的多個引導重新採樣重複完整的模型構建過程,然後測試每個生成的模型在完整數據集上的性能,您就可以合理估計建模過程在完整的數據集可能適用於原始人口。因此,在您的示例中,如果有一些定量標準可以確定首選預測變量的二次而不是線性建模,那麼您可以將該標準與每個重新採樣的所有其他建模步驟一起使用。

顯然最好避免這種數據窺探。單獨查看預測變量或結果的分佈等內容並沒有什麼壞處。您可以查看預測變量之間的關聯,以期將相關預測變量組合成單個匯總度量。您可以使用主題知識作為指導。例如,如果您的結果是嚴格的正數並且具有已知與測量值成比例的測量誤差,那麼從理論上講,對數變換很有意義。這些方法可以導致數據轉換不受預測結果關係的影響。

另一種有用的方法是從一個高度靈活的模型開始(前提是該模型沒有過度擬合的風險),然後從該模型拉回一個更簡潔的模型。例如,使用連續預測器,您可以從具有多個節點的樣條擬合開始,然後對節點逐漸減少的嵌套模型進行方差分析,以確定有多少節點(甚至是簡單的線性項)可以提供統計上無法區分的結果.

Frank Harrell 的課程筆記書籍為在沒有數據窺探的情況下可靠地建模的方法提供了詳細的指導。如果您在沒有窺探的情況下構建模型,上述驗證建模方法的過程也很有價值。

引用自:https://stats.stackexchange.com/questions/484184

comments powered by Disqus