Correlation

配對樣本中合併方差的分佈

  • August 8, 2020

假設具有均值的雙變量正態總體 $ \mu_1 $ 和 $ \mu_2 $ 和等方差 $ \sigma^2 $ 但具有相關性 $ \rho $ .

取成對樣本,可以計算合併方差。如果 $ S^2_1 $ 和 $ S^2_2 $ 分別是對的第一個元素和對的第二個元素的樣本方差,那麼,讓我們注意 $ S_p^2 = \frac{S^2_1+S^2_2}{2} $ 合併方差(相當於方差的平均值,因為第一個元素和第二個元素的樣本大小相同)。

我的問題是:我們如何證明 $ S_p^2 / \sigma^2 \approx \chi^2_\nu / \nu $ 和 $ \nu $ 自由度等於 $ 2(n-1)/(1+\rho^2) $ ?

如果這個結果是眾所周知的,那麼原始演示提供了哪些參考資料?

我不確定這個結果的參考,但可以相對容易地推導出它,所以我希望這就足夠了。解決此問題的一種方法是將其視為涉及在正態隨機向量上採用二次形式的問題。合併樣本方差可以表示為這種二次形式,並且這些二次形式通常使用卡方分佈來近似(在某些情況下具有精確的對應關係)。


**結果的推導:**為了說明您的假設在推導中的位置,我將進行推導的第一部分,而不假設兩組的方差相等。如果我們用 $ \mathbf{X} = (X_1,…,X_n) $ 和 $ \mathbf{Y} = (Y_1,…,Y_n) $ 那麼你規定的問題給出了聯合正態分佈:

$$ \begin{bmatrix} \mathbf{X} \ \mathbf{Y} \end{bmatrix} \sim \text{N} (\boldsymbol{\mu}, \mathbf{\Sigma} ) \quad \quad \quad \boldsymbol{\mu} = \begin{bmatrix} \mu_X \mathbf{1} \ \mu_Y \mathbf{1} \end{bmatrix} \quad \quad \quad \mathbf{\Sigma} = \begin{bmatrix} \sigma_X^2 \mathbf{I} & \rho \sigma_X \sigma_Y \mathbf{I} \ \rho \sigma_X \sigma_Y \mathbf{I} & \sigma_Y^2 \mathbf{I} \end{bmatrix}. $$

讓 $ \mathbf{C} $ 表示 $ n \times n $ centering matrix,你可以將這個問題中的合併樣本方差寫成二次形式:

$$ \begin{align} S_\text{pooled}^2 &= \begin{bmatrix} \mathbf{X} \ \mathbf{Y} \end{bmatrix}^\text{T} \mathbf{A} \begin{bmatrix} \mathbf{X} \ \mathbf{Y} \end{bmatrix} \quad \quad \quad \mathbf{A} \equiv \frac{1}{2(n-1)} \begin{bmatrix} \mathbf{C} & \mathbf{0} \ \mathbf{0} & \mathbf{C} \end{bmatrix}. \[6pt] \end{align} $$

現在,使用標準公式來計算正常隨機向量的二次形式的均值和方差,並註意到 $ \mathbf{C} $ 是一個冪等矩陣(即, $ \mathbf{C} = \mathbf{C}^2 $ ), 你有:

$$ \begin{align} \mathbb{E}(S_\text{pooled}^2) &= \text{tr}(\mathbf{A} \mathbf{\Sigma}) + \boldsymbol{\mu}^\text{T} \mathbf{A} \boldsymbol{\mu} \[6pt] &= \text{tr} \Bigg( \frac{1}{2(n-1)} \begin{bmatrix} \sigma_X^2 \mathbf{C} & \rho \sigma_X \sigma_Y \mathbf{C} \ \rho \sigma_X \sigma_Y \mathbf{C} & \sigma_Y^2 \mathbf{C} \end{bmatrix} \Bigg) + \mathbf{0} \[6pt] &= \frac{1}{2(n-1)} \text{tr} \Bigg( \begin{bmatrix} \sigma_X^2 \mathbf{C} & \rho \sigma_X \sigma_Y \mathbf{C} \ \rho \sigma_X \sigma_Y \mathbf{C} & \sigma_Y^2 \mathbf{C} \end{bmatrix} \Bigg) \[6pt] &= \frac{1}{2(n-1)} \Bigg[ n \times \frac{n-1}{n} \cdot \sigma_X^2 + n \times \frac{n-1}{n} \cdot \sigma_Y^2 \Bigg] \[6pt] &= \frac{\sigma_X^2 + \sigma_Y^2}{2}, \[12pt] \mathbb{V}(S_\text{pooled}^2) &= 2 \text{tr}(\mathbf{A} \mathbf{\Sigma} \mathbf{A} \mathbf{\Sigma}) + 4 \boldsymbol{\mu}^\text{T} \mathbf{A} \mathbf{\Sigma} \mathbf{A} \boldsymbol{\mu} \[6pt] &= 2 \text{tr} \Bigg( \frac{1}{4(n-1)^2} \begin{bmatrix} \sigma_X^2 \mathbf{C} & \rho \sigma_X \sigma_Y \mathbf{C} \ \rho \sigma_X \sigma_Y \mathbf{C} & \sigma_Y^2 \mathbf{C} \end{bmatrix}^2 \Bigg) + \mathbf{0} \[6pt] &= \frac{1}{2(n-1)^2} \text{tr} \Bigg( \begin{bmatrix} (\sigma_X^4 + \rho^2 \sigma_X^2 \sigma_Y^2) \mathbf{C} & (\sigma_X^2 + \sigma_Y^2) \rho \sigma_X \sigma_Y \mathbf{C} \ (\sigma_X^2 + \sigma_Y^2) \rho \sigma_X \sigma_Y \mathbf{C} & (\sigma_Y^4 + \rho^2 \sigma_X^2 \sigma_Y^2) \mathbf{C} \end{bmatrix} \Bigg) \[6pt] &= \frac{1}{2(n-1)^2} \Bigg[ n \times \frac{n-1}{n} \cdot (\sigma_X^4 + \rho^2 \sigma_X^2 \sigma_Y^2) + n \times \frac{n-1}{n} \cdot (\sigma_Y^4 + \rho^2 \sigma_X^2 \sigma_Y^2) \Bigg] \[6pt] &= \frac{1}{2(n-1)} \Bigg[ (\sigma_X^4 + \rho^2 \sigma_X^2 \sigma_Y^2) + (\sigma_Y^4 + \rho^2 \sigma_X^2 \sigma_Y^2) \Bigg] \[6pt] &= \frac{\sigma_X^4 + \sigma_Y^4 + 2 \rho^2 \sigma_X^2 \sigma_Y^2}{2(n-1)}. \[12pt] \end{align} $$

使用我們有的等方差假設 $ \sigma_X = \sigma_Y = \sigma $ 所以時刻減少到:

$$ \mathbb{E} \bigg( \frac{S_\text{pooled}^2}{\sigma^2} \bigg) = 1 \quad \quad \quad \mathbb{V} \bigg( \frac{S_\text{pooled}^2}{\sigma^2} \bigg) = \frac{1+\rho^2}{n-1}. $$

通常使用矩方法通過縮放的卡方分佈來近似二次形式的分佈。將前兩個時刻與該分佈相等給出方差要求 $ \mathbb{V}(S_\text{pooled}^2/\sigma^2) = 2/\nu $ ,然後給出自由度參數:

$$ \nu = \frac{2(n-1)}{1+\rho^2}. $$

請記住,這裡的自由度參數取決於真實的相關係數 $ \rho $ ,您可能需要使用實際問題中的樣本相關性來估計這一點。

引用自:https://stats.stackexchange.com/questions/482118

comments powered by Disqus