Covariance
為什麼協方差僅測量線性相關性?
1)線性相關是什麼意思?
2)我怎樣才能說服自己協方差衡量線性相關性?
3)我如何說服自己非線性依賴不是用協方差來衡量的?
A1) 假設兩個變量 X 和 Y 是線性相關的,那麼 X=αY+c 對於一些 α,c∈R .
A2) 協方差公式為:
COV(X,Y)=E([X−E(X)][Y−E(Y)])=E(XY)−E(X)E(Y)
從A1,考慮一些線性關係 X=αY+c ,但我們所擁有的只是來自每個變量中各個點的數據。我們如何獲得價值 α ? 好吧,事實證明我們可以問一個問題,“我們如何在這些點之間畫一條線,以最小化每個點與線之間的平方差之和?”。當我們對兩個變量進行分析時,我們會得到一個如下所示的封閉式方程:
α=E(XY)−E(Y)E(X)E(X2)−E(X)2
請注意,分子是協方差。IE
α=COV(X,Y)E(X2)−E(X)2
相關性(例如 Pearson)通常是對某事物進行歸一化的協方差的度量,以使其具有可比較的值。因此,您會看到整個度量先於分析如何將線擬合到某些數據。
A3)協方差不能測量非線性關係,原因與它測量線性關係的原因完全相同。也就是說,您基本上可以將其視為線性方程中的斜率(例如 X=αY+c ),因此當您嘗試將線擬合到曲線時,點和線之間的平方差之和可能很大。這是一個很好的圖表來說明其含義。數字表示皮爾遜相關係數,而圖表顯示相應的散點圖。