Self-Study

Benjamini-Hochberg 程序中錯誤發現率的證明/推導

  • November 5, 2020

Benjamini-Hochberg過程是一種校正多重比較的方法,錯誤發現率 (FDR) 等於 α .

或者是家庭明智的錯誤率,FWER?我對此有點困惑。根據我下面的計算,它似乎是等於的 FWER α 而不是羅斯福。

我們能證明這是真的嗎?

讓我們假設不同假設的多個 p 值是獨立的,並且 p 值的分佈(以零假設為真為條件)在 0,1 .


我可以使用模擬來證明它已經接近了。使用以下數字 α=0.1 , 在這個模擬中我拒絕一個假設的次數是

α=0.1 observed FDR=0.100002±0.00030

有錯誤基於 ±2σ 在哪裡 σ=0.10.9n

set.seed(1)
m <- 10^6
n <- 10
a <- 0.1
k <- 1:n

sample <- function( plotting = F) {
 p <- runif(n)
 p <- p[order(p)]
 counts <- max(0,which(p<k/n*a))
 if (plotting) {
   plot(k,p, ylim = c(0,1) )
   lines(k,k/n*a)
 }
 counts
}

x <- replicate(m, sample())
s <- sum(x>0)/m
err_s <- sqrt(s*(1-s)/m)
c(s-2*err_s,s,s+2*err_s) 

介紹

讓我們從一些符號開始:我們有 m 我們測試的簡單假設,每個空值都編號 H0,i . 全局零假設可以寫成所有局部零的交集: H0=mi=1H0,i . 接下來,我們假設每個假設 H0,i 有檢驗統計量 ti 我們可以計算 p 值 pi . 更具體地說,我們假設對於每個 i 的分佈 pi 在下面 H0,iU[0,1] .

例如(Efron的第 3 章),考慮比較兩組中的 6033 個基因: 1i6033 , 我們有 H0,i: “沒有區別 ith 基因”和 H1,i: “有區別 ith 基因”。在這個問題中, m=6033 . 我們的 m 假設可分為 4 組:

我們不觀察 S,T,U,V 但我們確實觀察到 R .

更好的

一個經典的標準是家庭誤差,表示為 FWE=IV1 . 那麼家庭錯誤率是 FWER=E[IV1]=P(V1) . 比較方法控制水平- α FWER 在強烈的意義上如果 FWERα 對於任何組合 \tilde{H}\in\left{H_{0,i},H_{1,i}\right}_{i=1,…,m} ; 它控制水平- α FWER 在弱的意義上如果 FWERα 在全局 null 下。

示例 - Holm 方法

  1. 對 p 值進行排序 p(1),,p(m) 然後分別是假設 H0,(1),,H0,(m) .

  2. 我們一個接一個地檢查假設:

  3. 如果 p(1)αm 我們拒絕 H0,(1) 並繼續,否則我們停止。

  4. 如果 p(2)αm1 我們拒絕 H0,(2) 並繼續,否則我們停止。

  5. 我們不斷拒絕 H0,(i) 如果 p(i)αmi+1

  6. 我們第一次得到時就停下來 p(i)>αmi+1 然後拒絕 H0,(1),,H0,(i1) .

Holm 方法示例:我們已經模擬 m=20 p 值,然後對它們進行排序。紅色圓圈表示被拒絕的假設,綠色圓圈沒有被拒絕,藍線是標準 αmi+1 : Holm 方法的可視化示例

被拒絕的假設是 H0,(1),H0,(2),H0,(3) . 你可以看到 p(4) 是大於標準的最小 p 值,因此我們拒絕所有 p 值較小的假設。

很容易證明這種方法控制了電平—— α FWER 在強烈的意義上。一個反例是Simes 方法,它只控制水平- α FWER 在弱的意義上。

羅斯福

錯誤發現比例 ( FDP ) 是比 FWE , 並定義為 $ FDP=\frac{V}{\max{1,R}}=\left{VRR1 0o.w

\right. . FDR=E[FDP] . \alpha FDR FDR=E[FDP]\le\alpha . FWER\ge FDR : I{V\ge1}\ge\left{VRR1 0o.w
\right. $ .

如果 V=0 然後 $ I{V\ge1}=0=\left{VRR1 0o.w

\right. . R\ge V V>0 \frac{V}{\max{1,R}}\le1 I{V\ge1}\ge\frac{V}{\max{1,R}} . E\left[I{V\ge1}\right]\ge E\left[\frac{V}{\max{1,R}}\right] , FWER\ge FDR $ .

如果控制水平,另一個非常簡單的主張 - α FDR 意味著控制水平- α FWER 弱意義上的,意思是在全局下 H0 我們得到 FWER=FDR : 在全球範圍內 H0 每個拒絕都是錯誤的拒絕,意思是 V=R , 所以$$ FDP=\left{VRR1 0o.w

\right.=\left{VVV1 0o.w
\right.=\left{1V1 0o.w
\right.=I{V\ge1}
FDR=E[FDP]=E[I{V\ge1}]=P(V\ge1)=FWER. $$

BH

Benjamini-Hochberg 方法如下:

  1. 對 p 值進行排序 p(1),,p(m) 然後分別是假設 H0,(1),,H0,(m)
  2. 標記為 i0 最大的 i 為此 p(i)imα
  3. 拒絕 H0,(1),,H0,(i0)

與前面的說法相反,說明為什麼 BH 方法保持 FDRα (更準確地說,它保持 FDR=m0mα )。這也不是一個簡短的證明,他是一些高級統計課程材料(我在我的一門統計學碩士課程中看到過)。我確實認為,就這個問題而言,我們可以簡單地假設它控制著羅斯福。

BH 示例:我們再次模擬了 m=20 p 值,然後對它們進行排序。紅色圓圈表示被拒絕的假設,綠色圓圈沒有被拒絕,藍線是標準 iαm :

BH 方法的可視化示例

被拒絕的假設是 H0,(1)H0,(10) . 你可以看到 p(11) 是大於標準的最大 p 值,因此我們拒絕所有 p 值較小的假設——即使其中一些 ( p(6),p(7) ) 大於標準。比較這個(大於標準的最大p 值)和 Holm 方法(大於標準的**最小p 值)。

證明 FDRα 對於 BH

為了 m0=0 (這意味著每個 pi 分佈在 H1,i ) 我們得到 FDRα 因為 V=0 , 所以假設 m01 . 表示 Vi=IH0,i was rejected 和 $ \mathcal{H}0\subseteq{1,…,m} H{0,i} FDP=\sum_{i\in\mathcal{H}0}{\frac{V_i}{\max{1,R}}}=\sum{i\in\mathcal{H}_0}{X_i} . i\in\mathcal{H}_0 E[X_i]=\frac{\alpha}{m} $ :

X_i=\sum_{k=0}^{m}{\frac{V_i}{\max{1,R}}I{R=k}}=\sum_{k=1}^{m}{\frac{I{H_{0,i}\text{ was rejected}}}{k}I{R=k}}=\sum_{k=1}^{m}{\frac{I\left{ p_i\le\frac{k}{m}\alpha \right}}{k}I{R=k}}

R(pi) 我們得到的拒絕次數,如果 pi=0 其餘的 p 值不變。認為 R=k , 如果 $ p_i\le\frac{k^}{m}\alpha R=R(p_i)=k^ I\left{ p_i\le\frac{k^}{m}\alpha \right}\cdot I{R=k^}=I\left{ p_i\le\frac{k^}{m}\alpha \right}\cdot I{R(p_i)=k^} . p_i>\frac{k^}{m}\alpha I\left{ p_i\le\frac{k^}{m}\alpha \right}=0 I\left{ p_i\le\frac{k^}{m}\alpha \right}\cdot I{R=k^}=I\left{ p_i\le\frac{k^}{m}\alpha \right}\cdot I{R(p_i)=k^} $ , 所以總的來說我們可以推斷

X_i=\sum_{k=1}^{m}{\frac{I\left{ p_i\le\frac{k}{m}\alpha \right}}{k}I{R=k}}=\sum_{k=1}^{m}{\frac{I\left{ p_i\le\frac{k}{m}\alpha \right}}{k}I{R(p_i)=k}},

現在我們可以計算 E[Xi] 以所有 p 值為條件,除了 pi . 在這種情況下, IR(pi)=k 是確定性的,我們總體上得到:

E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\cdot I{R(p_i)=k}\middle|p\backslash p_i\right]=E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\middle|p\backslash p_i\right]\cdot I{R(p_i)=k}

因為 pi 獨立於 ppi 我們得到

E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\middle|p\backslash p_i\right]\cdot I{R(p_i)=k}=E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\right]\cdot I{R(p_i)=k}\=P\left(p_i\le\frac{k}{m}\alpha\right)\cdot I{R(p_i)=k}

我們之前假設在 H0,i , piU[0,1] 所以最後一個表達式可以寫成 kmαIR(pi)=k . 下一個,

E[X_i|p\backslash p_i]=\sum_{k=1}^m\frac{E\left[I\left{ p_i\le\frac{k}{m}\alpha \right}\cdot I{R(p_i)=k}\middle|p\backslash p_i\right]}{k}=\sum_{k=1}^m\frac{\frac{k}{m}\alpha\cdot I{R(p_i)=k}}{k}\=\frac{\alpha}{m}\cdot\sum_{k=1}^m{I{R(p_i)=k}}=\frac{\alpha}{m}\cdot 1=\frac{\alpha}{m}.

使用總期望定律我們得到 E[Xi]=E[E[Xi|ppi]]=E[αm]=αm . 我們之前已經獲得 FDP=iH0Xi 所以

$$ FDR=E[FDP]=E\left[\sum_{i\in\mathcal{H}0}{X_i}\right]=\sum{i\in\mathcal{H}0}{E[X_i]}=\sum{i\in\mathcal{H}_0}{\frac{\alpha}{m}}=\frac{m_0}{m}\alpha\le\alpha\qquad\blacksquare $$

概括

我們已經看到了強感和弱感的區別 FWER 以及 DFR . 我認為您現在可以發現自己的差異並理解原因 FDRα 並不意味著 FWERα 在強烈的意義上

引用自:https://stats.stackexchange.com/questions/495211