多元回歸和多重比較

May 21, 2013

假設我擬合了 p 個解釋變量的多元回歸。t檢驗將允許我檢查其中任何一個是否重要（）。我可以進行部分 F 檢驗來檢查其中的某些子集是否重要（）。

我經常看到的是有人從 5 個 t 檢驗中得到 5 個 p 值（假設他們有 5 個協變量），並且只保留 p 值 < 0.05 的那些。這似乎有點不正確，因為真的應該進行多重比較檢查嗎？說這樣的話真的公平嗎和很重要，但,和不是？

在相關說明中，假設我對 2 個單獨的模型（不同的結果）運行 2 個回歸。是否需要對兩個結果之間的重要參數進行多重比較檢查？

編輯： 為了區別類似的問題，除了“在調整所有其他協變量時，B_i 是（不）顯著的”之外，對 p 值還有其他解釋嗎？似乎這種解釋不允許我查看每個 B_i 並刪除小於 0.5 的那些（這與另一篇文章類似）。

在我看來，測試 B_i 和 Y 是否存在關係的可靠方法是獲取每個協變量的相關係數 p 值，然後進行 multcomp（儘管這肯定會丟失信號）。

最後，假設我計算了 B1/Y1、B2/Y1 和 B3/Y1 之間的相關性（因此是三個 p 值）。不相關的是，我還做了 T1/Y2、T2/Y2、T3/Y2 之間的相關性。我假設所有 6 個測試的正確 Bonferroni 調整為 6（而不是第一組為 3，第二組為 3 - 從而獲得 2 個“半”調整的 p 值）。

你說得對。多重比較的問題無處不在，但是，由於它通常被教授的方式，人們只認為它涉及通過一大堆相互比較多個組 -測試。實際上，有很多例子存在多重比較問題，但看起來並不像很多成對比較；例如，如果您有很多連續變量，並且您想知道是否有相關性，那麼您將遇到多重比較問題（請參閱此處：查看，您將找到相關性）。

另一個例子是你提出的那個。如果您要運行具有 20 個變量的多元回歸，並且您使用作為您的閾值，即使所有空值都為真，您也會期望您的變量之一僅僅是偶然的“顯著”。多重比較的問題只是來自運行大量分析的數學。如果所有零假設都為真且變量完全不相關，則不錯誤拒絕任何真零假設的概率為（例如，與，這是）。

緩解這種情況的第一個策略是對您的模型進行同時測試。如果您正在擬合 OLS 回歸，大多數軟件都會為您提供全局 -test 作為輸出的默認部分。如果您正在運行廣義線性模型，大多數軟件都會為您提供類似的全局似然比檢驗。由於多重比較的問題，該測試將為您提供一些針對 I 型錯誤膨脹的保護（參見我的回答：線性回歸中係數的重要性：顯著 t 檢驗與非顯著 F 統計量）。類似的情況是當您有一個用多個虛擬代碼表示的分類變量時；你不想解釋那些 -tests，但會刪除所有虛擬代碼並執行嵌套模型測試。

另一種可能的策略是使用 alpha 調整程序，如 Bonferroni 校正。你應該意識到這樣做會降低你的能力，並降低你的家庭類型 I 錯誤率。這種權衡是否值得是您做出的判斷。（FWIW，我通常不在多元回歸中使用 alpha 校正。）

關於使用問題 -values 做模型選擇，我認為這是一個非常糟糕的主意。我不會從一個有 5 個變量的模型轉移到一個只有 2 個變量的模型，因為其他的都是“不重要的”。當人們這樣做時，他們會偏向他們的模型。它可以幫助您在這裡閱讀我的答案：自動模型選擇算法以更好地理解這一點。

關於您的更新，我不建議您首先評估單變量相關性，以便決定在最終的多元回歸模型中使用哪些變量。這樣做會導致內生性問題，除非變量彼此完全不相關。我在這裡的回答中討論了這個問題：估計代替 .

關於如何處理具有不同因變量的分析的問題，您是否要使用某種調整取決於您如何看待分析彼此之間的關係。傳統的想法是確定他們是否有意義地被認為是一個“家庭”。此處對此進行了討論：對於“假設族”，什麼可能是一個清晰、實用的定義？您可能還想閱讀此線程：預測多個因變量的方法。

引用自：https://stats.stackexchange.com/questions/59670

多元回歸和多重比較

相關問答

我們什麼時候“停止”使用多種校正技術？

用 R 中的 GAM 對象 {mgcv} 校正多個成對比較

研究員 1 運行 1000 個回歸，研究員 2 只運行 1 個，都得到相同的結果——他們應該做出不同的推論嗎？

發現的高維、相關數據和主要特徵/協變量；多重假設檢驗？

如果多重比較是“計劃的”，你還需要糾正多重比較嗎？

Benjamini-Hochberg 調整後的 p 值的公式是什麼？