Correlation
為什麼X和XY隨機變量之間的相關係數往往是0.7
摘自Douglas Altman 在第 285 頁中寫道的醫學研究實用統計:
…對於任何兩個量 X 和 Y,X 將與 XY 相關。事實上,即使 X 和 Y 是隨機數樣本,我們也希望 X 和 XY 的相關性為 0.7
我在 R 中試過這個,似乎是這樣:
x <- rnorm(1000000, 10, 2) y <- rnorm(1000000, 10, 2) cor(x, x-y) xu <- sample(1:100, size = 1000000, replace = T) yu <- sample(1:100, size = 1000000, replace = T) cor(xu, xu-yu)
這是為什麼?這背後的理論是什麼?
如果和是方差相等的不相關隨機變量,那麼我們就有了
最後, 所以,當你發現
的樣本相關性和對於大型數據集從具有這些屬性的總體中提取,其中包括“隨機數”作為特例,結果往往接近總體相關值