為什麼不以以下方式進行引導?
我的印像是,當您進行引導時,您的最終結果是來自樣本數據的原始統計數據,以及來自引導試驗的標準誤差。但是,從所有試驗中獲取平均統計數據似乎更直觀,而不僅僅是原始試驗的統計數據。是否有一些統計直覺,為什麼它是一個而不是另一個?
另外,我遇到了一個用例,有人使用均值作為統計數據進行引導。他們進行了抽樣,取了每個試驗的平均值,並用它來計算平均值周圍的置信區間。這個可以嗎?似乎您可以使用原始數據本身繪製置信區間,並且自舉會人為地降低標準誤差。再說一次,我可以用直覺來理解為什麼可以/不可以嗎?
bootstrap 的想法是在不對數據分佈做出實際假設的情況下估計估計值的抽樣分佈。
當您在估計標準誤差和/或置信區間時,通常會選擇抽樣分佈。但是,您的點估計很好。給定您的數據集並且不知道分佈,樣本均值仍然是您數據集中趨勢的一個很好的猜測。現在,標準錯誤呢?bootstrap 是一種很好的方法來獲得該估計,而無需對數據施加概率分佈。
從技術上講,在為通用統計建立標準誤差時,如果您知道估計的抽樣分佈 $ \hat \theta $ 是 $ F $ ,你想看看你能離它有多遠 $ \mu $ , 數量 $ \hat \theta $ 估計,您可以查看與抽樣分佈均值的差異 $ \mu $ ,即 $ \delta $ ,並將其作為分析的重點,而不是 $ \hat \theta $
$$ \delta = \hat \theta - \mu $$
現在,既然我們知道 $ \hat \theta \sim F $ , 當知道 $ \delta $ 應該與 $ F $ 減去常數 $ \mu $ . 一種“標準化”,就像我們對正態分佈所做的那樣。考慮到這一點,只需計算 80% 的置信區間,使得
$$ P_F(\delta_{.9} \le \hat \theta - \mu \le \delta_{.1} | \mu) = 0.8 \leftrightarrow P_F(\hat \theta - \delta_{.9} \ge \mu \ge \ \hat \theta - delta_{.1} | \mu) = 0.8 $$
所以我們只是將 CI 構建為 $ \left[\hat \theta - \delta_{.1}, \hat \theta - \delta_{.9} \right] $ . 請記住,我們不知道 $ F $ 所以我們不知道 $ \delta_{.1} $ 或者 $ \delta_{.9} $ . 而且我們不想假設它是正態的,而只看標準正態分佈的百分位數。
自舉原則幫助我們估計抽樣分佈 $ F $ 通過重新採樣我們的數據。我們的點估計將永遠存在 $ \hat \theta $ . 它沒有任何問題。但是如果我再重新採樣,我可以建立 $ \hat \theta^_1 $ . 然後另一個resmple $ \hat \theta^_2 $ . 然後另一個 $ \hat \theta^*_3 $ . 我想你應該已經明白了。
有一組估計 $ \hat \theta^_1 … \hat \theta^_n $ 有分佈 $ F^* $ 這近似於 $ F $ . 然後我們可以計算 $$ \delta^_i = \hat \theta^_i - \hat \theta $$
注意點估計 $ \mu $ 被我們最好的猜測所取代 $ \hat \theta $ . 並查看經驗分佈 $ \theta^* $ 計算 $ \left[\hat \theta - \delta^_{.1}, \hat \theta - \delta^_{.9} \right] $ .
現在,這個解釋很大程度上基於引導程序上的這個MIT 類。我強烈建議你讀一讀。