Variance

給定已知的組方差、均值和样本量,如何計算兩個或多個組的合併方差?

  • November 8, 2012

說有 $ m+n $ 元素分為兩組( $ m $ 和 $ n $ )。第一組的方差為 $ \sigma_m^2 $ 第二組的方差為 $ \sigma^2_n $ . 元素本身被假定為未知,但我知道方法 $ \mu_m $ 和 $ \mu_n $ .

有沒有辦法計算組合方差 $ \sigma^2_{(m+n)} $ ?

方差不必是無偏的,所以分母是 $ (m+n) $ 並不是 $ (m+n-1) $ .

這個想法是將數量表示為總和而不是分數。

鑑於任何 $ n $ 數據值 $ x_i, $ 使用均值的定義

$$ \mu_{1:n} = \frac{1}{\Omega_{1;n}}\sum_{i=1}^n \omega_{i} x_i $$

和样本方差

$$ \sigma_{1:n}^2 = \frac{1}{\Omega_{1;n}}\sum_{i=1}^n \omega_{i}\left(x_i - \mu_{1:n}\right)^2 = \frac{1}{\Omega_{1;n}}\sum_{i=1}^n \omega_{i}x_i^2 - \mu_{1:n}^2 $$

找到數據的(加權)平方和

$$ \Omega_{1;n}\mu_{1:n} = \sum_{i=1}^n \omega_{i} x_i $$

$$ \Omega_{1;n} \sigma_{1:n}^2 = \sum_{i=1}^n \omega_{i}\left(x_i - \mu_{1:n}\right)^2 = \sum_{i=1}^n \omega_{i}x_i^2 - \Omega_{1;n}\mu_{1:n}^2. $$

為了符號方便,我寫了$$ \Omega_{j;k}=\sum_{i=j}^k \omega_i $$權重總和。(在通常的具有相同權重的應用程序中,我們可以取 $ \omega_i=1 $ 對所有人 $ i, $ 何處 $ \Omega_{1;n}=n. $ )

讓我們做(簡單的)代數。排序索引 $ i $ 以便 $ i=1,\ldots,n $ 指定第一組的元素和 $ i=n+1,\ldots,n+m $ 指定第二組的元素。按組打散方格的整體組合,並根據數據子集的方差和均值重新表達這兩個部分:

$$ \eqalign{ \Omega_{1;n+m}(\sigma^2_{1:m+n} + \mu_{1:m+n}^2)&= \sum_{i=1}^{1:n+m} \omega_{i}x_i^2 \ &= \sum_{i=1}^n \omega_{i} x_i^2 + \sum_{i=n+1}^{n+m} \omega_{i} x_i^2 \ &= \Omega_{1;n}(\sigma^2_{1:n} + \mu_{1:n}^2) + \Omega_{n+1;n+m}(\sigma^2_{1+n:m+n} + \mu_{1+n:m+n}^2). } $$

代數解決這個問題 $ \sigma^2_{m+n} $ 就其他(已知)數量而言,產量

$$ \sigma^2_{1:m+n} = \frac{\Omega_{1;n}(\sigma^2_{1:n} + \mu_{1:n}^2) + \Omega_{n+1;n+m}(\sigma^2_{1+n:m+n} + \mu_{1+n:m+n}^2)}{\Omega_{1;n+m}} - \mu^2_{1:m+n}. $$

當然,使用同樣的方法, $ \mu_{1:m+n} = (\Omega_{1;n}\mu_{1:n} + \Omega_{n+1;n+m}\mu_{1+n:m+n})/\Omega_{1;n+m} $ 也可以用組均值來表示。


編輯 1

一位匿名貢獻者指出,當樣本均值相等時(因此 $ \mu_{1:n}=\mu_{1+n:m+n}=\mu_{1:m+n} $ ),解決方案 $ \sigma^2_{m+n} $ 是組樣本方差的加權平均值。

編輯 2

我已經將公式推廣到加權統計數據。這樣做的動機是美國最近發生的一起聯邦法院案件,該案件涉及如何合併加權方差的爭議:政府機構認為正確的方法是對兩組方差進行平均加權。在處理這個案例時,我發現很難找到關於結合加權統計的權威參考:大多數教科書沒有處理這個問題,或者他們認為概括是顯而易見的(確實如此,但不一定對政府僱員或律師!)。

順便說一句,我在那個案例的工作中使用了完全不同的符號。如果在編輯過程中任何錯誤潛入這篇文章中的公式,我會提前道歉並修復它們——但這不會反映我的證詞中的任何錯誤,我的證詞經過了非常仔細的檢查。

引用自:https://stats.stackexchange.com/questions/43159

comments powered by Disqus