Covariance
為什麼協方差僅測量線性相關性?
1)線性相關是什麼意思?
2)我怎樣才能說服自己協方差衡量線性相關性?
3)我如何說服自己非線性依賴不是用協方差來衡量的?
A1) 假設兩個變量 X 和 Y 是線性相關的,那麼 $ X = \alpha Y + c $ 對於一些 $ \alpha,c \in \mathbb{R} $ .
A2) 協方差公式為:
$$ COV(X,Y) = E([X-E(X)][Y-E(Y)]) = E(XY)-E(X)E(Y) $$
從A1,考慮一些線性關係 $ X = \alpha Y + c $ ,但我們所擁有的只是來自每個變量中各個點的數據。我們如何獲得價值 $ \alpha $ ? 好吧,事實證明我們可以問一個問題,“我們如何在這些點之間畫一條線,以最小化每個點與線之間的平方差之和?”。當我們對兩個變量進行分析時,我們會得到一個如下所示的封閉式方程:
$$ \alpha = \dfrac{E(XY) -E(Y)E(X)}{E(X^2) - E(X)^2} $$
請注意,分子是協方差。IE
$$ \alpha = \dfrac{COV(X,Y)}{E(X^2) - E(X)^2} $$
相關性(例如 Pearson)通常是對某事物進行歸一化的協方差的度量,以使其具有可比較的值。因此,您會看到整個度量先於分析如何將線擬合到某些數據。
A3)協方差不能測量非線性關係,原因與它測量線性關係的原因完全相同。也就是說,您基本上可以將其視為線性方程中的斜率(例如 $ X=\alpha Y + c $ ),因此當您嘗試將線擬合到曲線時,點和線之間的平方差之和可能很大。這是一個很好的圖表來說明其含義。數字表示皮爾遜相關係數,而圖表顯示相應的散點圖。