自舉樣本的平均值與樣本的統計量

January 14, 2015

假設我有一個樣本和來自該樣本的引導樣本用於統計（例如平均值）。眾所周知，這個 bootstrap 樣本估計了統計量估計量的抽樣分佈。

現在，這個引導樣本的平均值是否比原始樣本的統計數據更好地估計總體統計數據？在什麼條件下會出現這種情況？

讓我們概括一下，以便關注問題的癥結所在。我會拼出最細微的細節，以免留下任何疑問。分析只需要以下內容：

一組數字的算術平均值被定義為

期望是一個線性算子。 也就是說，當是隨機變量和是數字，那麼線性組合的期望是期望的線性組合，

讓做個樣本從數據集中獲得通過採取元素統一從更換。讓算術平均值. 這是一個隨機變量。然後

其次是期望的線性。由於元素都是以同樣的方式獲得的，他們都有同樣的期望，說：

這將上述簡化為

根據定義，期望是值的概率加權和。由於每個值假設有相同的機會被選中，

數據的算術平均值。

**要回答這個問題，**如果使用數據均值估計總體均值，然後是自舉均值（就是這種情況) 也等於，因此與總體均值的估計量相同。

對於不是數據的線性函數的統計數據，相同的結果不一定成立。然而，簡單地用引導平均值代替數據上的統計值是錯誤的：這不是引導的工作方式。相反，通過將引導平均值與數據統計量進行比較，我們可以獲得有關統計量偏差的信息。這可用於調整原始統計數據以消除偏差。因此，偏差校正估計因此成為原始統計量和引導平均值的代數組合。有關更多信息，請查找“BCa”（偏差校正和加速引導）和“ABC”。維基百科提供了一些參考資料。

引用自：https://stats.stackexchange.com/questions/133376

comments powered by Disqus

自舉樣本的平均值與樣本的統計量

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

隨機森林是否擅長檢測交互項？

為什麼不以以下方式進行引導？

自舉回歸分析後，所有 p 值都是 0.001996 的倍數

為什麼jackknife的計算量比bootstrap少？

什麼時候可以將引導程序應用於時間序列模型？