Benjamini-Hochberg 程序中錯誤發現率的證明/推導
Benjamini-Hochberg過程是一種校正多重比較的方法,錯誤發現率 (FDR) 等於 α .
或者是家庭明智的錯誤率,FWER?我對此有點困惑。根據我下面的計算,它似乎是等於的 FWER α 而不是羅斯福。
我們能證明這是真的嗎?
讓我們假設不同假設的多個 p 值是獨立的,並且 p 值的分佈(以零假設為真為條件)在 0,1 .
我可以使用模擬來證明它已經接近了。使用以下數字 α=0.1 , 在這個模擬中我拒絕一個假設的次數是
α=0.1 observed FDR=0.100002±0.00030
有錯誤基於 ±2σ 在哪裡 σ=√0.1⋅0.9n
set.seed(1) m <- 10^6 n <- 10 a <- 0.1 k <- 1:n sample <- function( plotting = F) { p <- runif(n) p <- p[order(p)] counts <- max(0,which(p<k/n*a)) if (plotting) { plot(k,p, ylim = c(0,1) ) lines(k,k/n*a) } counts } x <- replicate(m, sample()) s <- sum(x>0)/m err_s <- sqrt(s*(1-s)/m) c(s-2*err_s,s,s+2*err_s)
介紹
讓我們從一些符號開始:我們有 m 我們測試的簡單假設,每個空值都編號 H0,i . 全局零假設可以寫成所有局部零的交集: H0=⋂mi=1H0,i . 接下來,我們假設每個假設 H0,i 有檢驗統計量 ti 我們可以計算 p 值 pi . 更具體地說,我們假設對於每個 i 的分佈 pi 在下面 H0,i 是 U[0,1] .
例如(Efron的第 3 章),考慮比較兩組中的 6033 個基因: 1≤i≤6033 , 我們有 H0,i: “沒有區別 ith 基因”和 H1,i: “有區別 ith 基因”。在這個問題中, m=6033 . 我們的 m 假設可分為 4 組:
我們不觀察 S,T,U,V 但我們確實觀察到 R .
更好的
一個經典的標準是家庭誤差,表示為 FWE=IV≥1 . 那麼家庭錯誤率是 FWER=E[IV≥1]=P(V≥1) . 比較方法控制水平- α FWER 在強烈的意義上如果 FWER≤α 對於任何組合 \tilde{H}\in\left{H_{0,i},H_{1,i}\right}_{i=1,…,m} ; 它控制水平- α FWER 在弱的意義上如果 FWER≤α 在全局 null 下。
示例 - Holm 方法:
對 p 值進行排序 p(1),…,p(m) 然後分別是假設 H0,(1),…,H0,(m) .
我們一個接一個地檢查假設:
如果 p(1)≤αm 我們拒絕 H0,(1) 並繼續,否則我們停止。
如果 p(2)≤αm−1 我們拒絕 H0,(2) 並繼續,否則我們停止。
我們不斷拒絕 H0,(i) 如果 p(i)≤αm−i+1
我們第一次得到時就停下來 p(i)>αm−i+1 然後拒絕 H0,(1),…,H0,(i−1) .
Holm 方法示例:我們已經模擬 m=20 p 值,然後對它們進行排序。紅色圓圈表示被拒絕的假設,綠色圓圈沒有被拒絕,藍線是標準 αm−i+1 :
被拒絕的假設是 H0,(1),H0,(2),H0,(3) . 你可以看到 p(4) 是大於標準的最小 p 值,因此我們拒絕所有 p 值較小的假設。
很容易證明這種方法控制了電平—— α FWER 在強烈的意義上。一個反例是Simes 方法,它只控制水平- α FWER 在弱的意義上。
羅斯福
錯誤發現比例 ( FDP ) 是比 FWE , 並定義為 $ FDP=\frac{V}{\max{1,R}}=\left{VRR≥1 0o.w
\right. .錯誤發現率為 FDR=E[FDP] .控制水平− \alpha FDR 意味著如果我們多次重複實驗和拒絕標準是錯誤的, FDR=E[FDP]\le\alpha .很容易證明 FWER\ge FDR :我們首先聲明 I{V\ge1}\ge\left{VRR≥1 0o.w\right. $ .如果 V=0 然後 $ I{V\ge1}=0=\left{VRR≥1 0o.w
\right. .在上表中, R\ge V 因此對於 V>0 我們得到 \frac{V}{\max{1,R}}\le1 和 I{V\ge1}\ge\frac{V}{\max{1,R}} .這也意味著 E\left[I{V\ge1}\right]\ge E\left[\frac{V}{\max{1,R}}\right] ,這正是 FWER\ge FDR $ .如果控制水平,另一個非常簡單的主張 - α FDR 意味著控制水平- α FWER 弱意義上的,意思是在全局下 H0 我們得到 FWER=FDR : 在全球範圍內 H0 每個拒絕都是錯誤的拒絕,意思是 V=R , 所以$$ FDP=\left{VRR≥1 0o.w
\right.=\left{VVV≥1 0o.w\right.=\left{1V≥1 0o.w\right.=I{V\ge1} 接著FDR=E[FDP]=E[I{V\ge1}]=P(V\ge1)=FWER. $$BH
- 對 p 值進行排序 p(1),…,p(m) 然後分別是假設 H0,(1),…,H0,(m)
- 標記為 i0 最大的 i 為此 p(i)≤imα
- 拒絕 H0,(1),…,H0,(i0)
與前面的說法相反,說明為什麼 BH 方法保持 FDR≤α (更準確地說,它保持 FDR=m0mα )。這也不是一個簡短的證明,他是一些高級統計課程材料(我在我的一門統計學碩士課程中看到過)。我確實認為,就這個問題而言,我們可以簡單地假設它控制著羅斯福。
BH 示例:我們再次模擬了 m=20 p 值,然後對它們進行排序。紅色圓圈表示被拒絕的假設,綠色圓圈沒有被拒絕,藍線是標準 i⋅αm :
被拒絕的假設是 H0,(1) 到 H0,(10) . 你可以看到 p(11) 是大於標準的最大 p 值,因此我們拒絕所有 p 值較小的假設——即使其中一些 ( p(6),p(7) ) 大於標準。比較這個(大於標準的最大p 值)和 Holm 方法(大於標準的**最小p 值)。
證明 FDR≤α 對於 BH
為了 m0=0 (這意味著每個 pi 分佈在 H1,i ) 我們得到 FDR≤α 因為 V=0 , 所以假設 m0≥1 . 表示 Vi=IH0,i was rejected 和 $ \mathcal{H}0\subseteq{1,…,m} 一組假設 H{0,i} 是正確的,所以 FDP=\sum_{i\in\mathcal{H}0}{\frac{V_i}{\max{1,R}}}=\sum{i\in\mathcal{H}_0}{X_i} .我們首先證明 i\in\mathcal{H}_0 我們得到 E[X_i]=\frac{\alpha}{m} $ :
X_i=\sum_{k=0}^{m}{\frac{V_i}{\max{1,R}}I{R=k}}=\sum_{k=1}^{m}{\frac{I{H_{0,i}\text{ was rejected}}}{k}I{R=k}}=\sum_{k=1}^{m}{\frac{I\left{ p_i\le\frac{k}{m}\alpha \right}}{k}I{R=k}}
讓 R(pi) 我們得到的拒絕次數,如果 pi=0 其餘的 p 值不變。認為 R=k∗ , 如果 $ p_i\le\frac{k^}{m}\alpha 然後 R=R(p_i)=k^ 所以在這種情況下, I\left{ p_i\le\frac{k^}{m}\alpha \right}\cdot I{R=k^}=I\left{ p_i\le\frac{k^}{m}\alpha \right}\cdot I{R(p_i)=k^} .如果 p_i>\frac{k^}{m}\alpha 我們得到 I\left{ p_i\le\frac{k^}{m}\alpha \right}=0 然後再次 I\left{ p_i\le\frac{k^}{m}\alpha \right}\cdot I{R=k^}=I\left{ p_i\le\frac{k^}{m}\alpha \right}\cdot I{R(p_i)=k^} $ , 所以總的來說我們可以推斷
X_i=\sum_{k=1}^{m}{\frac{I\left{ p_i\le\frac{k}{m}\alpha \right}}{k}I{R=k}}=\sum_{k=1}^{m}{\frac{I\left{ p_i\le\frac{k}{m}\alpha \right}}{k}I{R(p_i)=k}},
現在我們可以計算 E[Xi] 以所有 p 值為條件,除了 pi . 在這種情況下, IR(pi)=k 是確定性的,我們總體上得到:
E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\cdot I{R(p_i)=k}\middle|p\backslash p_i\right]=E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\middle|p\backslash p_i\right]\cdot I{R(p_i)=k}
因為 pi 獨立於 p∖pi 我們得到E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\middle|p\backslash p_i\right]\cdot I{R(p_i)=k}=E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\right]\cdot I{R(p_i)=k}\=P\left(p_i\le\frac{k}{m}\alpha\right)\cdot I{R(p_i)=k}
我們之前假設在 H0,i , pi∼U[0,1] 所以最後一個表達式可以寫成 kmα⋅IR(pi)=k . 下一個,
E[X_i|p\backslash p_i]=\sum_{k=1}^m\frac{E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\cdot I{R(p_i)=k}\middle|p\backslash p_i\right]}{k}=\sum_{k=1}^m\frac{\frac{k}{m}\alpha\cdot I{R(p_i)=k}}{k}\=\frac{\alpha}{m}\cdot\sum_{k=1}^m{I{R(p_i)=k}}=\frac{\alpha}{m}\cdot 1=\frac{\alpha}{m}.
使用總期望定律我們得到 E[Xi]=E[E[Xi|p∖pi]]=E[αm]=αm . 我們之前已經獲得 FDP=∑i∈H0Xi 所以
$$ FDR=E[FDP]=E\left[\sum_{i\in\mathcal{H}0}{X_i}\right]=\sum{i\in\mathcal{H}0}{E[X_i]}=\sum{i\in\mathcal{H}_0}{\frac{\alpha}{m}}=\frac{m_0}{m}\alpha\le\alpha\qquad\blacksquare $$
概括
我們已經看到了強感和弱感的區別 FWER 以及 DFR . 我認為您現在可以發現自己的差異並理解原因 FDR≤α 並不意味著 FWER≤α 在強烈的意義上。