Estimation
自舉樣本的平均值與樣本的統計量
假設我有一個樣本和來自該樣本的引導樣本用於統計(例如平均值)。眾所周知,這個 bootstrap 樣本估計了統計量估計量的抽樣分佈。
現在,這個引導樣本的平均值是否比原始樣本的統計數據更好地估計總體統計數據?在什麼條件下會出現這種情況?
讓我們概括一下,以便關注問題的癥結所在。我會拼出最細微的細節,以免留下任何疑問。分析只需要以下內容:
- 一組數字的算術平均值被定義為
- 期望是一個線性算子。 也就是說,當是隨機變量和是數字,那麼線性組合的期望是期望的線性組合,
讓做個樣本從數據集中獲得通過採取元素統一從更換。讓算術平均值. 這是一個隨機變量。然後
其次是期望的線性。由於元素都是以同樣的方式獲得的,他們都有同樣的期望,說:
這將上述簡化為
根據定義,期望是值的概率加權和。由於每個值假設有相同的機會被選中,
數據的算術平均值。
**要回答這個問題,**如果使用數據均值估計總體均值,然後是自舉均值(就是這種情況) 也等於,因此與總體均值的估計量相同。
對於不是數據的線性函數的統計數據,相同的結果不一定成立。然而,簡單地用引導平均值代替數據上的統計值是錯誤的:這不是引導的工作方式。相反,通過將引導平均值與數據統計量進行比較,我們可以獲得有關統計量偏差的信息。這可用於調整原始統計數據以消除偏差。因此,偏差校正估計因此成為原始統計量和引導平均值的代數組合。有關更多信息,請查找“BCa”(偏差校正和加速引導)和“ABC”。 維基百科提供了一些參考資料。