Hypothesis-Testing

與錯誤發現率和多次測試混淆(在 Colquhoun 2014 上)

  • March 25, 2015

我讀過 David Colquhoun 的這篇很棒的論文:對錯誤發現率和 p 值的誤解的調查(2014 年)。從本質上講,他解釋了為什麼錯誤發現率 (FDR) 可以高達即使我們控制類型 I 錯誤.

但是,如果我在多次測試的情況下應用 FDR 控制會發生什麼,我仍然感到困惑。

比如說,我對許多變量中的每一個都進行了測試,併計算了- 使用 Benjamini-Hochberg 程序的值。我得到了一個重要的變量. 我在問這個發現的 FDR 是什麼?

我是否可以安全地假設,從長遠來看,如果我定期進行此類分析,FDR 不會, 但低於,因為我使用了 Benjamini-Hochberg?感覺不對,我會說-值對應於- Colquhoun 論文中的值和他的推理也適用於此,因此通過使用- 閾值我冒著“自欺欺人”的風險(正如 Colquhoun 所說)的案例。但是,我試圖更正式地解釋它,但我失敗了。

碰巧的是,幾週前我讀到了同一篇論文。Colquhoun 在提出問題時在第 4 節中提到了多重比​​較(包括 Benjamini-Hochberg),但我發現他沒有把問題說得足夠清楚——所以看到你的困惑我並不感到驚訝。

**要意識到的重要一點是,Colquhoun 是在談論沒有任何多重比較調整的情況。**可以將 Colquhoun 的論文理解為採用了讀者的觀點:他本質上是在問他閱讀科學文獻時可以預期的錯誤發現率 (FDR),這意味著在沒有進行多重比較調整時預期的 FDR 是多少。在一項研究(例如一篇論文)中運行多個統計測試時,可以考慮多重比較。但是沒有人會針對論文之間的多重比較進行調整。

如果您實際控制 FDR,例如通過遵循 Benjamini-Hochberg (BH) 程序,那麼它將被控制。問題是在每項研究中單獨運行 BH 程序並不能保證整體 FDR 控制。

我是否可以安全地假設,從長遠來看,如果我定期進行此類分析,FDR 不會 $ 30% $ , 但低於 $ 5% $ ,因為我使用了 Benjamini-Hochberg?

不。如果您在每篇論文中都使用 BH 程序,但在每篇論文中獨立使用,那麼您基本上可以解釋您的 BH-adjusted $ p $ - 正常值 $ p $ -values,而 Colquhoun 所說的仍然適用。


一般說明

Colquhoun 關於預期 FDR 的問題很難給出答案,因為它取決於各種假設。例如,如果所有零假設都為真,那麼 FDR 將是 $ 100% $ (即所有“重要”發現都是統計僥倖)。如果所有空值實際上都是假的,那麼 FDR 將為零。所以 FDR 取決於真空值的比例,這是外部估計或猜測的東西,以便估計 FDR。Colquhoun 給出了一些支持 $ 30% $ 數字,但這個估計對假設高度敏感。

我認為這篇論文大多是合理的,但我不喜歡它使某些主張聽起來過於大膽。例如摘要的第一句話是:

如果你使用 $ p=0.05 $ 暗示你有發現,至少你會錯 $ 30% $ 的時間。

這種表述過於強烈,實際上可能會產生誤導。

引用自:https://stats.stackexchange.com/questions/143325

comments powered by Disqus