Multiple-Regression

什麼叫多重測試?

  • July 16, 2013

在使用線性模型時,我可以想到不同“類型”的多重測試,例如:

  1. 多重推論,因為我們有幾個因變量
  2. 多重推論,因為我們有幾個自變量
  3. 不做任何測試就看數據。僅對可能產生顯著 p.value 的比較運行測試。
  4. 對同一數據運行多個不同的測試。(嘗試 LM,如果不顯著,請嘗試 GLM,如果仍然不顯著,請嘗試 beta 回歸等)

維基百科說:

[…] 當一個人同時考慮一組統計推斷或推斷基於觀察值選擇的參數子集時,就會出現多重測試問題。

維基百科所說的第一部分是否包含我的前兩點,而我用斜體字寫的部分(在“或”之後)是否等同於我的第三點?我的第 4 點與我們所說的多重測試無關,這對嗎?

如果我的問題太模糊,我可以這樣改寫:

何時會出現多次測試問題?您將如何對多次測試的可能事件進行分類(如果需要)?

如果預先指定了檢驗的所有方面並且滿足其假設,您可以安全地得出結論,零假設將在錯誤級別定義的頻率下被錯誤地拒絕。如果您進行多個測試(一個“系列”測試),則這些測試中的每一個都是犯此錯誤的額外機會。

每個單獨的測試可能仍具有其名義誤差水平,但您在族中錯誤地拒絕至少一個零假設的概率會更高。如果您有理由首先設置錯誤級別,這是一個問題,因為發生至少一個錯誤的概率高於所述錯誤級別。這是對多重測試的關注的核心,它似乎適用於您描述的所有四種情況。

現在,如果測試是獨立的並且所有零假設都是正確的,那麼您知道在整個家庭中犯至少一個錯誤的概率是多少(順便說一句,您還知道任何拒絕都必須是錯誤的)。如果它們不是獨立的,或者某些零假設實際上不正確,則不僅實際的家庭錯誤水平高於名義水平,而且很難確切知道有多高(但是你可以對其進行限制;那是Bonferroni 調整背後的原因)。如果各種假設以某種方式相關,則可能會應用特定的解決方案(例如經典的“多重比較”技術、多變量測試、臨床試驗中的順序程序),但即使它們不相關,問題仍然存在。

在收集數據時重複測試(也稱為可選停止或“抽樣到已成定局”)、嘗試各種技術、分析各種子樣本或因變量也會使您面臨多個測試問題。這些情況並不總是一起討論,但沒有理由不應該這樣做。測試相同假設或相關假設的不同技術(您的第 4 點)可能密切相關,並且可能不會像對完全不相關的樣本進行多次測試那樣增加家庭錯誤水平,但您仍在進行多次測試。

可能最微妙的問題是第 3 點。在這種情況下,您可以很好地運行單個統計測試。這怎麼會導致多重測試問題?支持這一觀點的一個論據是p值取決於假設複製上的檢驗統計量的分佈。如果您要復制此實驗,您將根據數據“看起來”的方式每次執行不同的測試。此檢驗統計量的分佈與您每次都盲目地檢驗相同的比較不同,因為它也受到先前對數據的非正式目視檢查的影響。實際上,您在研究中隱含地考慮了許多可能的比較,即多重測試情況。

類似的推理也適用於第 4 點中描述的情況。它可能對應於或不對應於通常稱為“多重測試問題”(is-this-really-所謂-X 問題的長期問題),但結果是相同:測試無法解釋,因為它們可能遠離標稱錯誤水平。由於您建議根據之前的結果進行進一步的測試,但無論如何您都願意運行多個測試,情況變得更加混亂。(請注意,這是基於您聲稱僅根據顯著性做出決定的事實。根據殘差或其他一些診斷選擇模型並且只進行一次顯著性檢驗似乎是一種更好的方法。)

我對最後兩點的推理尤其受到 Wagenmakers, E.-J. 的啟發。(2007 年)。p值普遍問題的實用解決方案。心理公報和評論, 14 (5), 779-804。

引用自:https://stats.stackexchange.com/questions/64476

comments powered by Disqus