使用多元回歸在我的數據中查找“因果”關係時應該注意什麼?
首先,我意識到多元回歸併沒有真正給出關於數據的“因果”推論。讓我解釋一下我目前的情況:
我有四個自變量,我希望(但不確定)參與驅動我正在測量的事物。我想使用多元回歸來查看這些變量中的每一個對我的因變量有多少貢獻,並且這樣做了。據說,變量“第四號”對我的結果測量有很大的影響(β 權重接近 0.7)。
然而,有人告訴我這還不夠,因為我的一些“獨立”變量實際上可能相互關聯。在那種情況下,我可以認為“變量四”正在驅動我的因變量,而實際上三和四都可以做出同等貢獻。這似乎是正確的,但由於我是新手,所以我不確定。
以後如何系統地避免這個問題?在使用多元回歸以確保您的“獨立”數據不包含隱藏的相關性時,您會推薦哪些具體程序?
編輯:數據本身是特定神經狀態的一系列網絡(圖)模型。我正在測量描述每個網絡作為一個整體的拓撲結構的“聚類係數”(此處為因變量),然後查看較大的 100+ 網絡中四個節點的單個連接是否正在驅動全局聚類值(四個獨立的變量)。然而,這些節點是網絡的一部分,所以從定義上看,它們可能在某種程度上是相關的。
你不能“在未來系統地避免這個問題”,因為它不應該被稱為“問題”。如果物質世界的現實具有很強的協變量,那麼我們應該接受它為事實,並相應地調整我們的理論和模型。我非常喜歡這個問題,希望接下來的內容不會太令人失望。
以下是一些可能對您有用的調整。在繼續之前,您需要查看回歸手冊。
- 使用方差膨脹因子 (VIF) 等相關性或後估計技術來診斷問題。如果您使用的是 SAS 或 R,請使用 Peter Flom 提到的工具。在 Stata 中,用於
pwcorr
構建相關矩陣、gr matrix
構建散點圖矩陣以及vif
檢測 1/VIF < 0.1 的有問題的容差水平。- 例如,通過添加
var3*var4
到模型來測量交互效果。該係數將幫助您了解 和 之間var3
的影響var4
。這只會讓您部分測量交互,但它不會使您的模型擺脫其限制。- 最重要的是,如果您檢測到強多重共線性或異方差等其他問題,您應該放棄您的模型並重新開始。模型錯誤指定是回歸分析(以及一般的常客方法)的瘟疫。Paul Schrodt 有幾篇關於這個問題的優秀論文,包括他最近的“七大罪”,我非常喜歡。
這回答了您關於多重共線性的觀點,其中很多內容可以從 UCLA Stat Computing 的回歸手冊中學到。它沒有回答你關於因果關係的問題。簡而言之,回歸從來都不是因果關係。任何統計模型都不是:因果信息和統計信息是不同的物種。從 Judea Pearl(示例)中選擇性地閱讀以了解有關此事的更多信息。
總而言之,這個答案並沒有抵消回歸分析的價值,甚至是常客統計的價值(我碰巧都教過)。然而,它確實減少了它們的適用範圍,也強調了你最初的解釋理論的關鍵作用,它真正決定了你的模型具有因果屬性的可能性。