多元回歸和多重比較
假設我擬合了 p 個解釋變量的多元回歸。t檢驗將允許我檢查其中任何一個是否重要()。我可以進行部分 F 檢驗來檢查其中的某些子集是否重要()。
我經常看到的是有人從 5 個 t 檢驗中得到 5 個 p 值(假設他們有 5 個協變量),並且只保留 p 值 < 0.05 的那些。這似乎有點不正確,因為真的應該進行多重比較檢查嗎?說這樣的話真的公平嗎和很重要,但,和不是?
在相關說明中,假設我對 2 個單獨的模型(不同的結果)運行 2 個回歸。是否需要對兩個結果之間的重要參數進行多重比較檢查?
編輯: 為了區別類似的問題,除了“在調整所有其他協變量時,B_i 是(不)顯著的”之外,對 p 值還有其他解釋嗎?似乎這種解釋不允許我查看每個 B_i 並刪除小於 0.5 的那些(這與另一篇文章類似)。
在我看來,測試 B_i 和 Y 是否存在關係的可靠方法是獲取每個協變量的相關係數 p 值,然後進行 multcomp(儘管這肯定會丟失信號)。
最後,假設我計算了 B1/Y1、B2/Y1 和 B3/Y1 之間的相關性(因此是三個 p 值)。不相關的是,我還做了 T1/Y2、T2/Y2、T3/Y2 之間的相關性。我假設所有 6 個測試的正確 Bonferroni 調整為 6(而不是第一組為 3,第二組為 3 - 從而獲得 2 個“半”調整的 p 值)。
你說得對。多重比較的問題無處不在,但是,由於它通常被教授的方式,人們只認為它涉及通過一大堆相互比較多個組 $ t $ -測試。實際上,有很多例子存在多重比較問題,但看起來並不像很多成對比較;例如,如果您有很多連續變量,並且您想知道是否有相關性,那麼您將遇到多重比較問題(請參閱此處:查看,您將找到相關性)。
另一個例子是你提出的那個。如果您要運行具有 20 個變量的多元回歸,並且您使用 $ \alpha=.05 $ 作為您的閾值,即使所有空值都為真,您也會期望您的變量之一僅僅是偶然的“顯著”。多重比較的問題只是來自運行大量分析的數學。如果所有零假設都為真且變量完全不相關,則不錯誤拒絕任何真零假設的概率為 $ 1-(1-\alpha)^p $ (例如,與 $ p=5 $ , 這是 $ .23 $ )。
緩解這種情況的第一個策略是對您的模型進行同時測試。如果您正在擬合 OLS 回歸,大多數軟件都會為您提供全局 $ F $ -test 作為輸出的默認部分。如果您正在運行廣義線性模型,大多數軟件都會為您提供類似的全局似然比檢驗。由於多重比較的問題,該測試將為您提供一些針對 I 型錯誤膨脹的保護(參見我的回答:線性回歸中係數的重要性:顯著 t 檢驗與非顯著 F 統計量)。類似的情況是當您有一個用多個虛擬代碼表示的分類變量時;你不想解釋那些 $ t $ -tests,但會刪除所有虛擬代碼並執行嵌套模型測試。
另一種可能的策略是使用 alpha 調整程序,如 Bonferroni 校正。你應該意識到這樣做會降低你的能力,並降低你的家庭類型 I 錯誤率。這種權衡是否值得是您做出的判斷。(FWIW,我通常不在多元回歸中使用 alpha 校正。)
關於使用問題 $ p $ -values 做模型選擇,我認為這是一個非常糟糕的主意。我不會從一個有 5 個變量的模型轉移到一個只有 2 個變量的模型,因為其他的都是“不重要的”。當人們這樣做時,他們會偏向他們的模型。它可以幫助您在這裡閱讀我的答案:自動模型選擇算法以更好地理解這一點。
關於您的更新,我不建議您首先評估單變量相關性,以便決定在最終的多元回歸模型中使用哪些變量。這樣做會導致內生性問題,除非變量彼此完全不相關。我在這裡的回答中討論了這個問題:估計 $ b_1x_1+b_2x_2 $ 代替 $ b_1x_1+b_2x_2+b_3x_3 $ .
關於如何處理具有不同因變量的分析的問題,您是否要使用某種調整取決於您如何看待分析彼此之間的關係。傳統的想法是確定他們是否有意義地被認為是一個“家庭”。此處對此進行了討論:對於“假設族”,什麼可能是一個清晰、實用的定義? 您可能還想閱讀此線程:預測多個因變量的方法。