線性多元回歸方程中所有 IV 之間的共享方差在哪裡?
在線性多元回歸方程中,如果 beta 權重反映了每個獨立變量的貢獻超過所有其他 IV 的貢獻,那麼在回歸方程中,預測 DV 的所有 IV 共享的方差是哪裡?
例如,如果下面顯示的維恩圖(取自此處的 CV 的“關於”頁面:https ://stats.stackexchange.com/about )被重新標記為 3 個 IV 和 1 個 DV,那麼帶有星號的區域將在哪裡輸入進入多元回歸方程?
要理解該圖可能意味著什麼,我們必須定義一些東西。假設維恩圖顯示了 4 個不同變量之間的重疊(或共享)方差,並且我們想要預測借助我們的知識,, 和. 也就是說,我們希望能夠減少不確定性(即方差)從零方差到殘差。能做到多好?這就是維恩圖為您解答的問題。
每個圓圈代表一組點,因此代表一個方差量。在大多數情況下,我們對,但該圖還顯示了預測變量中的方差。關於我們的身材,有幾點需要注意。首先,每個變量都有相同的方差——它們的大小都相同(儘管不是每個人都會如此字面地使用維恩圖)。此外,還有相同數量的重疊等。需要注意的更重要的一點是,預測變量之間存在大量重疊。這意味著它們是相關的。這種情況在處理二級(即檔案)數據、觀察研究或現實世界的預測場景時非常常見。另一方面,如果這是一個設計好的實驗,它可能意味著設計或執行不佳。再繼續這個例子,我們可以看到我們的預測能力是中等的;大部分的可變性在使用了所有變量後仍然是剩餘可變性(目測圖表,我猜)。還有一點需要注意的是,一旦和已輸入模型,不考慮任何變化.
現在,在擬合了具有多個預測變量的模型之後,人們經常想要測試這些預測變量以查看它們是否與響應變量相關(儘管尚不清楚這是否像人們認為的那樣重要)。我們的問題是,為了測試這些預測變量,我們必須對平方和進行分區,並且由於我們的預測變量是相關的,因此存在可以歸因於多個預測變量的 SS。事實上,在星號區域,SS 可以歸因於三個預測變量中的任何一個。這意味著沒有唯一的 SS 分區,因此沒有唯一的測試。如何處理這個問題取決於研究人員使用的 SS 類型和研究人員做出的其他判斷。由於許多軟件應用程序默認返回類型 III SS,因此許多人丟棄了重疊區域中包含的信息,而沒有意識到他們已經做出了判斷調用。我解釋了這些問題,不同類型的 SS,並在此處詳細介紹。
如前所述,這個問題專門詢問所有這些在betas / 回歸方程中的位置。答案是沒有。我在此處的回答中包含有關此的一些信息(儘管您必須在字裡行間稍微閱讀一下)。