Distributions

可以使用自舉重採樣來計算數據集方差的置信區間嗎?

  • January 17, 2014

我知道,如果您多次從數據集中重新採樣並每次計算均值,這些均值將遵循正態分佈(通過 CLT)。因此,您可以計算數據集均值的置信區間,而無需對數據集的概率分佈做出任何假設。

我想知道你是否可以為方差做類似的事情。也就是說,如果我要從數據集中多次重新採樣並每次計算方差,這些方差是否會遵循某個分佈(不管數據集的原始概率分佈是什麼)?

我知道如果原始數據集是正常的,那麼方差將遵循卡方分佈。但是在不正常的情況下呢?

可以使用 Bootstrap 重採樣來計算數據集方差的置信區間嗎?

是的,就像許多其他統計數據一樣。

我知道,如果您多次從數據集中重新採樣並每次計算均值,這些均值將遵循正態分佈(通過 CLT)。

並非總是這樣,如果您引導均值,則引導均值將遵循正態分佈,即使對於適用 CLT 的分佈也是如此。

這是一個示例,我對大小樣本的平均值進行了重新採樣,我重新採樣了 10000 次:

在此處輸入圖像描述

遠非正常。

原始樣本由九十七個“0”值、一個“1”、一個“2”和一個“100”組成。

這是我為生成上面的圖而運行的 (R) 代碼:

x <- c(rep(0,97),1,2,100)
y <- replicate(10000,mean(sample(x,replace=TRUE)))
plot(table(y),type="h")

問題是在這種情況下,樣本量(100)太小,CLT 無法應用於這種分佈形狀。我們重新採樣多少次都沒關係。

但是,如果原始樣本量更大,則此類樣本均值的重採樣分佈看起來會更正常(儘管始終是離散的)。

以下是重新採樣上述數據(黑色)和相同比例但值是十倍的值(紅色;即 n=1000)時的 ecdfs:

在此處輸入圖像描述

正如我們所見,重採樣大樣本時的分佈函數看起來確實更正常。

如果我要從數據集中多次重新採樣並每次計算方差,這些方差會遵循一定的分佈嗎

不,出於同樣的原因,平均值不一定正確。

但是,CLT 也適用於差異*;只是你不能說 CLT 僅通過多次重採樣就適用於引導重採樣。如果原始樣本量足夠大,這可能(在正確的條件下)傾向於使均值(以及更高矩,如果它們存在)的重採樣分佈相對接近正態分佈(相對於其在較小樣本中的分佈,在至少)。

  • 如果您考慮,CLT 通常適用於方差(假設存在適當的時刻)是直觀的. 讓; 然後, 所以如果 CLT 適用於-變量,它可以應用於. 現在只是一個縮放版本; 如果 CLT 適用於它將適用於 . 然而,這個論點的大綱並不完全可靠,並且有一些你一開始可能沒有預料到的例外情況。

引用自:https://stats.stackexchange.com/questions/82537

comments powered by Disqus