Correlation

為什麼X和XY隨機變量之間的相關係數往往是0.7

  • March 6, 2013

摘自Douglas Altman 在第 285 頁中寫道的醫學研究實用統計:

…對於任何兩個量 X 和 Y,X 將與 XY 相關。事實上,即使 X 和 Y 是隨機數樣本,我們也希望 X 和 XY 的相關性為 0.7

我在 R 中試過這個,似乎是這樣:

x <- rnorm(1000000, 10, 2)
y <- rnorm(1000000, 10, 2)
cor(x, x-y)

xu <- sample(1:100, size = 1000000, replace = T)
yu <- sample(1:100, size = 1000000, replace = T)
cor(xu, xu-yu)

這是為什麼?這背後的理論是什麼?

如果和是方差相等的不相關隨機變量,那麼我們就有了

最後, 所以,當你發現

的樣本相關性和對於大型數據集從具有這些屬性的總體中提取,其中包括“隨機數”作為特例,結果往往接近總體相關值

引用自:https://stats.stackexchange.com/questions/51456

comments powered by Disqus