Correlation

均值居中會降低協方差嗎?

  • February 11, 2019

假設我有兩個非獨立隨機變量,並且我想盡可能減少它們之間的協方差而不丟失太多“信號”,是否意味著居中有幫助?我在某處讀到,這意味著居中會通過一個重要因素降低相關性,所以我認為它應該對協方差做同樣的事情。

如果 $ X $ 和 $ Y $ 是隨機變量和 $ a $ 和 $ b $ 是常數,那麼 $$ \begin{aligned} \operatorname{Cov}(X + a, Y + b) &= E[(X + a - E[X + a])(Y + b - E[Y + b])] \ &= E[(X + a - E[X] - E[a])(Y + b - E[Y] - E[b])] \ &= E[(X + a - E[X] - a)(Y + b - E[Y] - b)] \ &= E[(X - E[X])(Y - E[Y])] \ &= \operatorname{Cov}(X, Y). \end{aligned} $$ 居中是特例 $ a = -E[X] $ 和 $ b = -E[Y] $ ,所以居中不會影響協方差。


此外,由於相關性被定義為 $$ \operatorname{Corr}(X, Y) = \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}, $$ 我們可以看到 $$ \begin{aligned} \operatorname{Corr}(X + a, Y + b) &= \frac{\operatorname{Cov}(X + a, Y + b)}{\sqrt{\operatorname{Var}(X + a) \operatorname{Var}(Y + b)}} \ &= \frac{\operatorname{Cov}(X, Y)}{\sqrt{\operatorname{Var}(X) \operatorname{Var}(Y)}}, \end{aligned} $$ 因此,特別是相關性也不受居中影響。


那是故事的人口版本。示例版本相同:如果我們使用 $$ \widehat{\operatorname{Cov}}(X, Y) = \frac{1}{n} \sum_{i=1}^n \left(X_i - \frac{1}{n}\sum_{j=1}^n X_j\right)\left(Y_i - \frac{1}{n}\sum_{j=1}^n Y_j\right) $$ 作為我們對之間協方差的估計 $ X $ 和 $ Y $ 來自配對樣本 $ (X_1,Y_1), \ldots, (X_n,Y_n) $ , 然後 $$ \begin{aligned} \widehat{\operatorname{Cov}}(X + a, Y + b) &= \frac{1}{n} \sum_{i=1}^n \left(X_i + a - \frac{1}{n}\sum_{j=1}^n (X_j + a)\right)\left(Y_i + b - \frac{1}{n}\sum_{j=1}^n (Y_j + b)\right) \ &= \frac{1}{n} \sum_{i=1}^n \left(X_i + a - \frac{1}{n}\sum_{j=1}^n X_j - \frac{n}{n} a\right)\left(Y_i + b - \frac{1}{n}\sum_{j=1}^n Y_j - \frac{n}{n} b\right) \ &= \frac{1}{n} \sum_{i=1}^n \left(X_i - \frac{1}{n}\sum_{j=1}^n X_j\right)\left(Y_i - \frac{1}{n}\sum_{j=1}^n Y_j\right) \ &= \widehat{\operatorname{Cov}}(X, Y) \end{aligned} $$ 對於任何 $ a $ 和 $ b $ .

引用自:https://stats.stackexchange.com/questions/391838

comments powered by Disqus