為什麼從一開始就沒有對所有實驗應用多重假設校正？

April 11, 2016

我們知道，我們必須對基於單個數據集的實驗應用 Benjamini Hochberg 式的多假設檢驗校正，以控制錯誤發現率，否則所有給出陽性結果的實驗都可能是錯誤的。

但是，為什麼我們不將同樣的原則應用到從一開始的所有實驗中，而不管數據來自哪裡？

畢竟，超過一半的被認為“重要”的已發表科學結果現在被認為是錯誤的和不可複制的，沒有理由不能輕易做到 100%。由於科學家只傾向於發表陽性結果，我們不知道陰性結果的數量，所以我們不知道我們發表的內容是否只是假陽性——在零假設下純隨機機會出現的陽性結果。同時，沒有什麼可以說多重假設檢驗校正背後的數學應該只適用於來自同一數據集的結果，而不適用於隨著時間的推移獲得的所有實驗數據的結果。

整個科學似乎已經變成了一場基於虛假或弱假設的大捕魚，那麼我們該如何控制呢？

如果我們發布的所有結果都是獨立的結果，而不對迄今為止進行的所有實驗的多重假設檢驗進行任何校正，我們如何控制錯誤發現率？

是否*可以在不*應用此類校正的情況下控制錯誤發現率？**

這在實踐中顯然是一場噩夢，但假設它可以做到：我們任命一個統計蘇丹，每個運行假設檢驗的人都報告他們的原始數據-對這個暴君的價值觀。他執行某種全局（字面意思）多重比較校正，並以校正後的版本進行回复。

這會迎來科學和理性的黃金時代嗎？不，可能不是。

讓我們從考慮一對假設開始，如-測試。我們測量兩組的某些屬性，並希望區分關於該屬性的兩個假設：在有限樣本中，即使確實如此：測量誤差和其他可變性來源可以推動個別值。但是，那假設在某種意義上是“無聊的”，研究人員通常關心避免“假陽性”情況，在這種情況下，他們聲稱發現了真正不存在的群體之間的差異。因此，我們僅在零假設下似乎不太可能的結果才稱其為“顯著”，並且按照慣例，該不太可能的閾值設置為 5%。這適用於單個測試。現在假設您決定運行多個測試並願意接受 5% 的錯誤接受機會每一個人。因此，通過足夠的測試，您幾乎肯定會開始犯錯誤，而且會犯很多錯誤。

各種多重更正方法旨在幫助您恢復到您已經選擇容忍單個測試的標稱錯誤率。他們這樣做的方式略有不同。控制Family-Wise Error Rate的方法，例如Bonferroni、Sidak和Holm 程序，會說“您希望在單次測試中出錯的機率為 5%，因此我們將確保您不會超過 5%在所有測試中出錯的機率為 %。” 控制錯誤發現率的方法而是說“您顯然可以接受一次測試最多 5% 的錯誤，因此我們將確保在進行多次測試時，您的“呼叫”錯誤率不超過 5%”。（看到不同？）

現在，假設您試圖控制曾經運行過的所有假設檢驗的全族錯誤率。您本質上是在說您希望永遠錯誤地拒絕任何零假設的機會<5%。這設置了一個不可能嚴格的閾值，推理實際上是無用的，但還有一個更緊迫的問題：您的全局校正意味著您正在測試絕對荒謬的“複合假設”，例如

通過錯誤發現率校正，數字問題不是那麼嚴重，但在哲學上仍然是一團糟。相反，定義相關測試的“家族”是有意義的，例如基因組學研究期間的候選基因列表，或光譜分析期間的一組時間頻率箱。為您的家庭量身定制一個特定的問題可以讓您以直接的方式實際解釋您的 I 型錯誤。例如，您可以從您自己的基因組數據中查看一組經過 FWER 校正的 p 值，然後說“這些基因中的任何一個都是假陽性的可能性小於 5%。” 這比一個模糊的保證要好得多，它涵蓋了你不關心的人對你不關心的話題所做的推論。

另一面是他對“家庭”的適當選擇是有爭議的並且有點主觀（所有基因都是一個家庭還是我可以只考慮激酶？）但它應該由你的問題來告知，我不相信任何人幾乎如此廣泛地認真倡導定義家庭。

貝葉斯呢？

貝葉斯分析為這個問題提供了連貫的替代方案——如果你願意稍微遠離Frequentist Type I / Type II錯誤框架。我們從一些不置可否的事開始……嗯……一切。每次我們學習某些東西時，這些信息都會與先驗信息相結合以生成後驗分佈，這反過來又成為我們下一次學習的先驗信息。這為您提供了一個連貫的更新規則，您可以通過計算兩個假設之間的貝葉斯因子來比較關於特定事物的不同假設。您大概可以分解出模型的大部分內容，這甚至不會使這變得特別繁重。

有一個持久的……模因貝葉斯方法不需要多重比較校正。不幸的是，後驗概率只是常客（即關心 I/II 類錯誤的人）的另一個檢驗統計量。他們沒有任何特殊的屬性來控制這些類型的錯誤（他們為什麼會這樣？）因此，你回到了棘手的領域，但也許在稍微更有原則的基礎上。

貝葉斯的反駁是我們應該專注於我們現在可以知道的東西，因此這些錯誤率並不那麼重要。

關於再現性

您似乎在暗示不正確的多重比較校正是許多不正確/不可重現結果背後的原因。我的感覺是其他因素更有可能成為問題。一個明顯的問題是出版壓力導致人們避免真正強調他們的假設的實驗（即糟糕的實驗設計）。

例如，[在這個實驗中]（Amgen 的 (ir)reproduciblity initative 6的一部分，結果證明小鼠在感興趣的基因以外的基因中發生了突變。Andrew Gelman 也喜歡談論分岔路花園，其中研究人員根據數據選擇（合理的）分析計劃，但如果數據看起來不同，可能會進行其他分析。- 值以類似於多重比較的方式，但之後更難糾正。明顯不正確的分析也可能起作用，但我的感覺（和希望）是這種情況正在逐漸改善。

引用自：https://stats.stackexchange.com/questions/206592

comments powered by Disqus

為什麼從一開始就沒有對所有實驗應用多重假設校正？

貝葉斯呢？

關於再現性

相關問答

Benjamini-Hochberg 程序中錯誤發現率的證明/推導

我們什麼時候“停止”使用多種校正技術？

用 R 中的 GAM 對象 {mgcv} 校正多個成對比較

FPR（誤報率）與 FDR（誤報率）

研究員 1 運行 1000 個回歸，研究員 2 只運行 1 個，都得到相同的結果——他們應該做出不同的推論嗎？

發現的高維、相關數據和主要特徵/協變量；多重假設檢驗？