Multiple-Comparisons

多重比較文獻中“依賴”和“獨立”測試的簡單語言含義?

  • February 12, 2015

在全族錯誤率(FWER) 和錯誤發現率(FDR) 文獻中,據說控制 FWER 或 FDR 的特定方法適用於相關或獨立測試。例如,在 1979 年的論文“A Simple Sequentially Rejective Multiple Test Procedure”中,Holm 寫道,將他的升壓 Šidák 方法與他的升壓 Bonferroni 控制方法進行對比:

當測試統計量是獨立的時,也可以獲得同樣的計算簡單性。

在 Benjamini 和 Hochberg (1995) 的“控制錯誤發現率”中,作者寫道:

*定理 1.*對於獨立檢驗統計量和任何假零假設配置,上述程序將 FDR 控制在.

後來,在 2001 年,Benjamini 和 Yekutieli 寫道:

1.3. 問題。在實踐中嘗試使用 FDR 方法時,依賴測試統計數據比****獨立測試統計數據更常見,上面的多端點示例就是一個很好的例子。

**這些作者使用了依賴獨立個體的哪些特定含義?**如果它們附有簡單的語言解釋,我會很高興正式定義使測試相互依賴或獨立的原因。

我可以想到幾種不同的可能含義,但我不太明白其中的含義,如果有的話,它們可能是:

  • “從屬”是指多變量檢驗(即具有相同或相似預測變量的許多因變量);獨立意味著單變量測試(即許多自變量,一個因變量)。
  • “依賴”是指基於配對/匹配受試者的測試(例如配對t檢驗、重複測量 ANOVA 等);“獨立”是指未配對/獨立的樣本研究設計。
  • “依賴”是指一個測試被拒絕的概率與另一個測試被拒絕的概率相關,“正相關”是指這種相關性是正的;“獨立”意味著拒絕概率是不相關的。

參考文獻

Benjamini, Y. 和 Hochberg, Y. (1995)。控制錯誤發現率:一種實用且強大的多重測試方法皇家統計學會雜誌。B 系列(方法論),57(1):289–300。

Benjamini, Y. 和 Yekutieli, D. (2001)。依賴關係下多次測試的錯誤發現率控制統計年鑑,29(4):1165-1188。

霍爾姆,S. (1979)。一個簡單的順序拒絕多重測試程序斯堪的納維亞統計雜誌,6(65-70):1979。

“多重比較”是附加於根據多個測試的結果做出決策的一般問題的名稱。著名的XKCD“綠色果凍豆”卡通片闡明了問題的本質,其中研究人員對食用果凍豆(20 種不同顏色)與痤瘡之間的關聯進行了假設檢驗。一項測試報告的 p 值小於,從而得出“青豆會引起粉刺”的結論。笑話是,根據設計,p 值具有機會小於,所以直覺上我們會期望看到一個低的 p 值不同的測試。

漫畫沒有說的是測試基於單獨的數據集或一個數據集。

使用單獨的數據集,每個結果有一個成為“重要”的機會。(獨立事件的)概率的基本性質意味著所有的機會結果是“微不足道的”是. 剩下的機會大到足以證實我們的直覺,即在這一大組結果中出現一個“顯著”結果也就不足為奇了;沒有任何原因可以有效地分配給這樣的結果,除了機會的操作。

如果結果基於公共數據集,但是,前面的計算將是錯誤的:它假設所有結果在統計學上是獨立的。但他們為什麼不呢?方差分析提供了一個標準示例:當將兩個或多個治療組與對照組進行比較時,每次比較都涉及相同的控制結果。比較不是獨立的。現在,例如,由於控制的偶然變化,可能會出現“顯著”差異。這種變化可以同時改變與每一組的比較。

(ANOVA 通過其整體 F 檢驗來處理這個問題。這是一種“統管一切”的比較:除非首先這個 F 檢驗是顯著的,否則我們不會相信組間比較。)

我們可以用以下框架 **抽像出這種情況的本質。多重比較涉及根據 p 值做出決定的不同的測試。這些 p 值是隨機變量。 假設所有相應的零假設在邏輯上是一致的,那麼每個假設都應該有一個均勻分佈。當我們知道它們的聯合分佈時,我們可以構造合理的方法來組合所有其中一個決定。否則,我們通常能做的最好的事情就是依賴近似邊界(例如,這是 Bonferroni 校正的基礎)。

獨立隨機變量的聯合分佈很容易計算。因此,文獻將這種情況與非獨立的情況區分開來。

因此,引文中“獨立”的正確含義是在通常的統計意義上的獨立隨機變量。


請注意,**得出這個結論需要一個假設:**即,所有的零假設在邏輯上是一致的。作為避免的示例,考慮使用一批單變量數據進行兩次測試假設是來自未知均值的正態分佈的隨機樣本. 第一個是 t 檢驗, 具有 p 值,第二個是 t 檢驗, 具有 p 值. 由於兩者在邏輯上不能同時成立,因此談論“零分佈”將是有問題的. 在這種情況下,根本不可能有這樣的事情!因此,統計獨立性的概念有時甚至不能適用。

引用自:https://stats.stackexchange.com/questions/137337

comments powered by Disqus