與錯誤發現率和多次測試混淆（在 Colquhoun 2014 上）

March 25, 2015

我讀過 David Colquhoun 的這篇很棒的論文：對錯誤發現率和 p 值的誤解的調查（2014 年）。從本質上講，他解釋了為什麼錯誤發現率 (FDR) 可以高達即使我們控制類型 I 錯誤.

但是，如果我在多次測試的情況下應用 FDR 控制會發生什麼，我仍然感到困惑。

比如說，我對許多變量中的每一個都進行了測試，併計算了- 使用 Benjamini-Hochberg 程序的值。我得到了一個重要的變量. 我在問這個發現的 FDR 是什麼？

我是否可以安全地假設，從長遠來看，如果我定期進行此類分析，FDR 不會, 但低於，因為我使用了 Benjamini-Hochberg？感覺不對，我會說-值對應於- Colquhoun 論文中的值和他的推理也適用於此，因此通過使用- 閾值我冒著“自欺欺人”的風險（正如 Colquhoun 所說）的案例。但是，我試圖更正式地解釋它，但我失敗了。

碰巧的是，幾週前我讀到了同一篇論文。Colquhoun 在提出問題時在第 4 節中提到了多重比較（包括 Benjamini-Hochberg），但我發現他沒有把問題說得足夠清楚——所以看到你的困惑我並不感到驚訝。

**要意識到的重要一點是，Colquhoun 是在談論沒有任何多重比較調整的情況。**可以將 Colquhoun 的論文理解為採用了讀者的觀點：他本質上是在問他閱讀科學文獻時可以預期的錯誤發現率 (FDR)，這意味著在沒有進行多重比較調整時預期的 FDR 是多少。在一項研究（例如一篇論文）中運行多個統計測試時，可以考慮多重比較。但是沒有人會針對論文之間的多重比較進行調整。

如果您實際控制 FDR，例如通過遵循 Benjamini-Hochberg (BH) 程序，那麼它將被控制。問題是在每項研究中單獨運行 BH 程序並不能保證整體 FDR 控制。

我是否可以安全地假設，從長遠來看，如果我定期進行此類分析，FDR 不會 $ 30% $ , 但低於 $ 5% $ ，因為我使用了 Benjamini-Hochberg？

不。如果您在每篇論文中都使用 BH 程序，但在每篇論文中獨立使用，那麼您基本上可以解釋您的 BH-adjusted $ p $ - 正常值 $ p $ -values，而 Colquhoun 所說的仍然適用。

一般說明

Colquhoun 關於預期 FDR 的問題很難給出答案，因為它取決於各種假設。例如，如果所有零假設都為真，那麼 FDR 將是 $ 100% $ （即所有“重要”發現都是統計僥倖）。如果所有空值實際上都是假的，那麼 FDR 將為零。所以 FDR 取決於真空值的比例，這是外部估計或猜測的東西，以便估計 FDR。Colquhoun 給出了一些支持 $ 30% $ 數字，但這個估計對假設高度敏感。

我認為這篇論文大多是合理的，但我不喜歡它使某些主張聽起來過於大膽。例如摘要的第一句話是：

如果你使用 $ p=0.05 $ 暗示你有發現，至少你會錯 $ 30% $ 的時間。

這種表述過於強烈，實際上可能會產生誤導。

引用自：https://stats.stackexchange.com/questions/143325

comments powered by Disqus

與錯誤發現率和多次測試混淆（在 Colquhoun 2014 上）

一般說明

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

為什麼機器學習中的參數未經測試？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

具有二分變量的兩組的顯著性檢驗

為什麼均值 ± 2*SEM（95% 置信區間）重疊，但 p 值為 0.05？