可以使用自舉重採樣來計算數據集方差的置信區間嗎?
我知道,如果您多次從數據集中重新採樣並每次計算均值,這些均值將遵循正態分佈(通過 CLT)。因此,您可以計算數據集均值的置信區間,而無需對數據集的概率分佈做出任何假設。
我想知道你是否可以為方差做類似的事情。也就是說,如果我要從數據集中多次重新採樣並每次計算方差,這些方差是否會遵循某個分佈(不管數據集的原始概率分佈是什麼)?
我知道如果原始數據集是正常的,那麼方差將遵循卡方分佈。但是在不正常的情況下呢?
可以使用 Bootstrap 重採樣來計算數據集方差的置信區間嗎?
是的,就像許多其他統計數據一樣。
我知道,如果您多次從數據集中重新採樣並每次計算均值,這些均值將遵循正態分佈(通過 CLT)。
並非總是這樣,如果您引導均值,則引導均值將遵循正態分佈,即使對於適用 CLT 的分佈也是如此。
這是一個示例,我對大小樣本的平均值進行了重新採樣,我重新採樣了 10000 次:
遠非正常。
原始樣本由九十七個“0”值、一個“1”、一個“2”和一個“100”組成。
這是我為生成上面的圖而運行的 (R) 代碼:
x <- c(rep(0,97),1,2,100) y <- replicate(10000,mean(sample(x,replace=TRUE))) plot(table(y),type="h")
問題是在這種情況下,樣本量(100)太小,CLT 無法應用於這種分佈形狀。我們重新採樣多少次都沒關係。
但是,如果原始樣本量更大,則此類樣本均值的重採樣分佈看起來會更正常(儘管始終是離散的)。
以下是重新採樣上述數據(黑色)和相同比例但值是十倍的值(紅色;即 n=1000)時的 ecdfs:
正如我們所見,重採樣大樣本時的分佈函數看起來確實更正常。
如果我要從數據集中多次重新採樣並每次計算方差,這些方差會遵循一定的分佈嗎
不,出於同樣的原因,平均值不一定正確。
但是,CLT 也適用於差異*;只是你不能說 CLT 僅通過多次重採樣就適用於引導重採樣。如果原始樣本量足夠大,這可能(在正確的條件下)傾向於使均值(以及更高矩,如果它們存在)的重採樣分佈相對接近正態分佈(相對於其在較小樣本中的分佈,在至少)。
- 如果您考慮,CLT 通常適用於方差(假設存在適當的時刻)是直觀的. 讓; 然後, 所以如果 CLT 適用於-變量,它可以應用於. 現在只是一個縮放版本; 如果 CLT 適用於它將適用於 . 然而,這個論點的大綱並不完全可靠,並且有一些你一開始可能沒有預料到的例外情況。