Regression
是否允許在數據集上使用平均值來提高相關性?
我有一個帶有因變量和自變量的數據集。兩者都不是時間序列。我有 120 個觀察結果。相關係數為0.43
在這個計算之後,我為兩個變量添加了一個列,每 12 個觀察值的平均值,產生 2 個新列,包含 108 個觀察值(對)。這些列的相關係數為 0.77
看來我以這種方式改善了相關性。允許這樣做嗎?我是否通過使用平均值來增加自變量的解釋力?
讓我們看一下兩個向量,第一個是
2 6 2 6 2 6 2 6 2 6 2 6
第二個向量是
6 2 6 2 6 2 6 2 6 2 6 2
計算您將得到的 Pearson 相關性
cor(a,b) [1] -1
但是,如果您對值取連續對的平均值,則兩個向量是相同的。相同的向量具有相關性 1。
4 4 4 4 4 4
這個簡單的例子說明了你的方法的一個缺點。
編輯:更一般地解釋它:相關係數按以下方式計算。
平均一些s和一些s 改變之間的差異和以及兩者之間的區別和.