在沒有基本費率模型的情況下,FDR 程序如何估計錯誤發現率?
有人可以解釋 FDR 程序如何能夠在沒有模型/假設的情況下估計 FDR 的真實陽性率嗎?
我認為這是一個非常好的問題;太多人使用 Benjamini-Hochberg 程序(縮寫為 BH;可能是控制 FDR 的最流行的程序)作為黑匣子。事實上,它對統計數據做了一個潛在的假設,並且很好地隱藏在 p 值的定義中!
對於定義明確的 p 值它認為是均勻分佈的 () 在原假設下。有時甚至可能是這樣, 即隨機小於 uniform,但這只會使程序更加保守(因此仍然有效)。因此,通過計算您的 p 值、使用 t 檢驗或您選擇的任何檢驗,您可以提供有關原假設下分佈的信息。
但是請注意,我一直在談論零假設;所以你提到的關於真陽性基本率的知識是不需要的,你只需要假陽性基本率的知識!為什麼是這樣?
讓表示所有被拒絕的(肯定的)假設的數量和誤報,然後:
因此,要估計 FDR,您需要一種估計方法,. 我們現在將看看拒絕所有 p 值的決策規則. 為了在符號中清楚地說明這一點,我還將寫對於這種程序的相應數量/隨機變量。
自從只是拒絕總數的期望值,你可以通過你觀察到的拒絕次數來公正地估計它,所以 ,即簡單地通過計算你的 p 值有多少.
現在怎麼樣? 好吧假設你的總假設是零假設,然後通過零下 p 值的均勻性(或亞均勻性),你得到:
但我們仍然不知道,但我們知道,所以保守的上限就是. 因此,由於我們只需要誤報數量的上限,因此我們知道它們的分佈就足夠了!這正是 BH 程序所做的。
因此,儘管曾阿榮的評論“BH 程序是一種將 FDR 控制在給定水平 q 上的方法。它不是關於估計 FDR”的評論不是錯誤的,它也是高度誤導的!BH 過程實際上確實估計了每個給定閾值的 FDR. 然後它選擇最大的閾值,使得估計的 FDR 低於. 確實是假設的“調整後的 p 值”本質上只是對閾值處 FDR 的估計(直至等滲)。我認為標準的 BH 算法稍微隱藏了這個事實,但是很容易證明這兩種方法的等價性(在多重測試文獻中也稱為“等價性定理”)。
最後,確實存在諸如 Storey 程序之類的方法,甚至可以估計從數據中;這可以稍微增加功率。同樣原則上您是對的,也可以對替代方案下的分佈(您的真實正基率)進行建模以獲得更強大的程序;但到目前為止,多重測試研究主要集中在保持對 I 類錯誤的控制上,而不是最大化功率。一個困難還在於,在許多情況下,您的每個真正的替代方案都將具有不同的替代分佈(例如,不同假設的不同功率),而在零值下,所有 p 值都具有相同的分佈。這使得真陽性率的建模更加困難。