Correlation

兩個變量之和如何解釋比單個變量更多的方差?

  • January 13, 2017

當兩個預測變量呈負相關時,我得到了一些令人費解的結果,即總和與第三個變量的相關性。是什麼導致了這些令人困惑的結果?

示例 1:兩個變量之和與第三個變量之間的相關性

考慮一下 Guildford 1965 年文本的第 427 頁上的公式 16.23,如下所示。

令人費解的發現:如果兩個變量與第三個變量的相關性為 0.2,並且彼此之間的相關性為 -.7,則公式得出的值為 0.52。如果兩個變量各自與第三個變量的相關性僅為 0.2,那麼總計與第三個變量的相關性怎麼可能是 0.52?

示例 2:兩個變量和第三個變量之間的多重相關性是什麼?

考慮吉爾福德 1965 年文本的第 404 頁上的公式 16.1(如下所示)。

令人困惑的發現:同樣的情況。如果兩個變量都將 0.2 與第三個變量相關並且彼此相關 -.7,則公式的結果值為 0.52。如果兩個變量各自與第三個變量的相關性僅為 0.2,那麼總計與第三個變量的相關性怎麼可能是 0.52?

我嘗試了一個快速的蒙特卡羅模擬,它證實了吉爾福德公式的結果。

但是如果兩個預測變量都預測了第三個變量方差的 4%,那麼它們之和怎麼能預測出 1/4 的方差呢?

兩個變量之和與第三個變量的相關性 兩個變量與第三個變量的多重相關

資料來源:《心理學與教育基礎統計》,第 4 版,1965 年。

澄清

我正在處理的情況涉及根據現在衡量個人的能力來預測個人未來的表現。

下面的兩個維恩圖顯示了我對這種情況的理解,旨在澄清我的困惑。

這個維恩圖(圖 1)反映了 x1 和 C 之間的零階 r=.2。在我的領域中,有許多這樣的預測變量可以適度地預測一個標準。

圖。1

這個維恩圖(圖 2)反映了兩個這樣的預測變量,x1 和 x2,每個預測 C 在 r=.2 和兩個預測變量負相關,r=-.7。

圖 2

我無法想像兩個 r=.2 預測變量之間的關係,這將使它們一起預測 C 的 25% 的方差。

我尋求幫助來理解 x1、x2 和 C 之間的關係。

如果(正如一些人在回答我的問題時所建議的那樣)x2 充當 x1 的抑制變量,則第二個維恩圖中的哪個區域被抑制?

如果一個具體的例子會有所幫助,我們可以認為 x1 和 x2 是兩個人類能力,而 C 是 4 年大學 GPA,4 年後。

我無法想像抑制變量如何導致兩個 r=.2 零階 r 的 8% 解釋方差擴大並解釋 C 的 25% 方差。一個具體的例子將是一個非常有幫助的答案。

當兩個預測變量都包含一個大的干擾因子但符號相反時,就會發生這種情況,因此當您將它們相加時,干擾抵消了,您得到的結果更接近第三個變量。

讓我們用一個更極端的例子來說明。認為是獨立的標準正態隨機變量。現在讓

比如說恰好是你的第三個變量,是你的兩個預測指標,並且是一個你不知道的潛在變量。A 與 Y 的相關性為 0,而 B 與 Y 的相關性很小,接近 0.00001。* 但和是 1。

*對於 B 的標準偏差略大於 1,有一個微小的修正。

引用自:https://stats.stackexchange.com/questions/256116

comments powered by Disqus