Regression

是否允許在數據集上使用平均值來提高相關性?

  • September 15, 2016

我有一個帶有因變量和自變量的數據集。兩者都不是時間序列。我有 120 個觀察結果。相關係數為0.43

在這個計算之後,我為兩個變量添加了一個列,每 12 個觀察值的平均值,產生 2 個新列,包含 108 個觀察值(對)。這些列的相關係數為 0.77

看來我以這種方式改善了相關性。允許這樣做嗎?我是否通過使用平均值來增加自變量的解釋力?

讓我們看一下兩個向量,第一個是

   2 6 2 6 2 6 2 6 2 6 2 6

第二個向量是

  6 2 6 2 6 2 6 2 6 2 6 2

計算您將得到的 Pearson 相關性

cor(a,b)
[1] -1

但是,如果您對值取連續對的平均值,則兩個向量是相同的。相同的向量具有相關性 1。

 4 4 4 4 4 4  

這個簡單的例子說明了你的方法的一個缺點。

編輯:更一般地解釋它:相關係數按以下方式計​​算。

平均一些s和一些s 改變之間的差異和以及兩者之間的區別和.

引用自:https://stats.stackexchange.com/questions/235127

comments powered by Disqus