Bootstrap：過擬合的問題

August 16, 2014

假設通過繪圖執行所謂的非參數引導大小樣本每個都來自原版替換觀察。我相信這個過程相當於通過經驗 cdf 估計累積分佈函數：

http://en.wikipedia.org/wiki/Empirical_distribution_function

然後通過模擬獲得引導樣本來自估計 cdf 的觀察結果連續幾次。

如果我在這方面是對的，那麼就必須解決過度擬合的問題，因為經驗 cdf 有大約 N 個參數。當然，它漸近收斂到總體 cdf，但是有限樣本呢？例如，如果我告訴你我有 100 個觀察值，我將估計 cdf 為有兩個參數，你不會驚慌。但是，如果參數的數量增加到 100 個，這似乎根本不合理。

同樣，當採用標準多元線性回歸時，誤差項的分佈估計為. 如果一個人決定切換到引導殘差，他必須意識到現在有大約僅用於處理誤差項分佈的參數。

您能否指導我找到一些明確解決此問題的來源，或者如果您認為我弄錯了，請告訴我為什麼這不是問題。

我不完全確定我是否理解您的問題…我假設您對收斂順序感興趣？

因為經驗 cdf 有大約 N 個參數。當然，它漸近收斂到總體 cdf，但是有限樣本呢？

你讀過引導理論的基礎知識嗎？問題是它很快就變得非常瘋狂（數學上）。

無論如何，我建議看看

范德法特“漸近統計”第 23 章。

Hall “Bootstrap 和 Edgeworth 擴展”（冗長但簡潔，比我所說的 van der Vaart 更少手動）

為基礎。

Chernick “引導方法”更針對用戶而不是數學家，但有一個關於“引導失敗的地方”的部分。

經典的 Efron/Tibshirani 幾乎沒有解釋為什麼 bootstrap 確實有效……

引用自：https://stats.stackexchange.com/questions/112142

comments powered by Disqus

Bootstrap：過擬合的問題

相關問答

我可以對非常小的樣本使用 Mann-Whitney U 檢驗嗎？

為什麼我們使用術語“人口”而不是“數據生成過程”？

現實世界問題中的隨機抽樣和獨立性

給定兩個具有相同平均值、標準差和 N 的樣本：每個樣本中的值是否相同？

當我們擁有所有人口時，我們是否需要假設檢驗？

檢測樣本中是否實際存在兩個總體