Variance
如何計算變量分區的方差
我正在運行一個實驗,我正在並行收集(獨立)樣本,我計算每組樣本的方差,現在我想將所有樣本組合起來以找到所有樣本的總方差。
由於我不確定術語,我很難找到它的派生詞。我認為它是一個房車的分區。
所以我想找到從,, …, 和, 在哪裡=.
編輯:分區的大小/基數不同,但分區大小的總和等於整個樣本集中的樣本數。
編輯2:這裡有一個並行計算的公式,但它只涵蓋了將分區分成兩組的情況,而不是套。
如果所有子樣本具有相同的樣本量,則該公式相當簡單。如果你有大小的子樣本(總共樣本),則組合樣本的方差取決於均值和方差每個子樣本:
在哪裡表示樣本均值的方差。 R中的演示:
> x <- rnorm(100) > g <- gl(10,10) > mns <- tapply(x, g, mean) > vs <- tapply(x, g, var) > 9/99*(sum(vs) + 10*var(mns)) [1] 1.033749 > var(x) [1] 1.033749
如果樣本量不相等,那麼公式就不那麼好了。
編輯:不等樣本量的公式
如果有子樣本,每個都有總共的元素值,那麼
在哪裡是所有平均值的加權平均值(等於所有值的平均值)。 再次,演示:
> k <- rpois(10, lambda=10) > n <- sum(k) > g <- factor(rep(1:10, k)) > x <- rnorm(n) > mns <- tapply(x, g, mean) > vs <- tapply(x, g, var) > 1/(n-1)*(sum((k-1)*vs) + sum(k*(mns-weighted.mean(mns,k))^2)) [1] 1.108966 > var(x) [1] 1.108966
順便說一句,這些公式很容易通過將所需方差寫為,然後引入: ,使用平方差公式,並化簡。