在沒有基本費率模型的情況下，FDR 程序如何估計錯誤發現率？

November 10, 2014

有人可以解釋 FDR 程序如何能夠在沒有模型/假設的情況下估計 FDR 的真實陽性率嗎？

我認為這是一個非常好的問題；太多人使用 Benjamini-Hochberg 程序（縮寫為 BH；可能是控制 FDR 的最流行的程序）作為黑匣子。事實上，它對統計數據做了一個潛在的假設，並且很好地隱藏在 p 值的定義中！

對於定義明確的 p 值它認為是均勻分佈的 () 在原假設下。有時甚至可能是這樣, 即隨機小於 uniform，但這只會使程序更加保守（因此仍然有效）。因此，通過計算您的 p 值、使用 t 檢驗或您選擇的任何檢驗，您可以提供有關原假設下分佈的信息。

但是請注意，我一直在談論零假設；所以你提到的關於真陽性基本率的知識是不需要的，你只需要假陽性基本率的知識！為什麼是這樣？

讓表示所有被拒絕的（肯定的）假設的數量和誤報，然後：

因此，要估計 FDR，您需要一種估計方法,. 我們現在將看看拒絕所有 p 值的決策規則. 為了在符號中清楚地說明這一點，我還將寫對於這種程序的相應數量/隨機變量。

自從只是拒絕總數的期望值，你可以通過你觀察到的拒絕次數來公正地估計它，所以，即簡單地通過計算你的 p 值有多少.

現在怎麼樣? 好吧假設你的總假設是零假設，然後通過零下 p 值的均勻性（或亞均勻性），你得到：

但我們仍然不知道，但我們知道，所以保守的上限就是. 因此，由於我們只需要誤報數量的上限，因此我們知道它們的分佈就足夠了！這正是 BH 程序所做的。

因此，儘管曾阿榮的評論“BH 程序是一種將 FDR 控制在給定水平 q 上的方法。它不是關於估計 FDR”的評論不是錯誤的，它也是高度誤導的！BH 過程實際上確實估計了每個給定閾值的 FDR. 然後它選擇最大的閾值，使得估計的 FDR 低於. 確實是假設的“調整後的 p 值”本質上只是對閾值處 FDR 的估計（直至等滲）。我認為標準的 BH 算法稍微隱藏了這個事實，但是很容易證明這兩種方法的等價性（在多重測試文獻中也稱為“等價性定理”）。

最後，確實存在諸如 Storey 程序之類的方法，甚至可以估計從數據中；這可以稍微增加功率。同樣原則上您是對的，也可以對替代方案下的分佈（您的真實正基率）進行建模以獲得更強大的程序；但到目前為止，多重測試研究主要集中在保持對 I 類錯誤的控制上，而不是最大化功率。一個困難還在於，在許多情況下，您的每個真正的替代方案都將具有不同的替代分佈（例如，不同假設的不同功率），而在零值下，所有 p 值都具有相同的分佈。這使得真陽性率的建模更加困難。

引用自：https://stats.stackexchange.com/questions/123402

comments powered by Disqus

在沒有基本費率模型的情況下，FDR 程序如何估計錯誤發現率？

相關問答