FPR(誤報率)與 FDR(誤報率)
以下引用來自Storey & Tibshirani (2003)著名的研究論文Statistical Significant
例如,5% 的誤報率意味著研究中平均 5% 的真正無效特徵將被稱為顯著。5% 的 FDR(錯誤發現率)意味著在所有稱為顯著的特徵中,平均有 5% 是真正的無效特徵。
有人可以使用簡單的數字或視覺示例來解釋這意味著什麼嗎?我很難理解這意味著什麼。我發現了各種關於 FDR 或 FPR 的帖子,但沒有找到任何進行具體比較的地方。
如果該領域的專家能夠說明其中一個比另一個更好,或者兩者都好或壞的情況,那將是特別好的。
我將以幾種不同的方式解釋這些,因為它幫助我理解了它。
讓我們舉一個具體的例子。您正在對一群人進行疾病測試。現在讓我們定義一些術語。對於以下每一項,我指的是經過測試的個人:
真陽性(TP):有病,確定為有病
假陽性(FP):沒有疾病,被確定為有疾病
真陰性(TN):沒有疾病,確定為沒有疾病
假陰性(FN):有疾病,被確定為沒有疾病
在視覺上,這通常使用混淆矩陣來顯示:
在此處輸入圖像描述
假**陽性率 (FPR)**是沒有患病但被確定為患病的人數(所有 FP)除以沒有患病的總人數(包括所有 FP 和 TN) .
$$ FPR = \frac{FP}{FP + TN} $$
**錯誤發現率 (FDR)**是未患病但被確定為患有該疾病的人數(所有 FP)除以被確定為患有該疾病的總人數(包括所有 FP 和 TP )。
$$ FDR = \frac{FP}{FP + TP} $$
那麼,區別在於分母,即您將誤報的數量與什麼進行比較?
FPR告訴您將被確定為患有該疾病的所有未患有該疾病的人的比例。
FDR告訴您在所有被確定患有該疾病的人中沒有該疾病的比例。
因此,兩者都是有用的、不同的失敗衡量標準。根據情況和 TP、FP、TN 和 FN 的比例,您可能更關心其中一個。
現在讓我們為此添加一些數字。你已經測量了 100 人的疾病,你得到以下結果:
真陽性(TP):12
誤報(FP):4
真陰性(TN):76
假陰性(FN):8
要使用混淆矩陣顯示這一點:
然後,
$$ FPR = \frac{FP}{FP + TN} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5% $$
$$ FDR = \frac{FP}{FP + TP} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25% $$
換句話說,
FPR 告訴您,在沒有患病的人中,有 5% 的人被確定為患病。FDR 告訴您,25% 的被確定患有該疾病的人實際上並未患有該疾病。
根據@amoeba 的評論進行編輯(也是上例中的數字):
為什麼區分如此重要?在您鏈接到的論文中,Storey 和 Tibhshirani 指出,在全基因組研究中,人們非常關注 FPR(或 I 型錯誤率),這導致人們做出有缺陷的推論。這是因為一旦你發現 $ n $ 通過修復 FPR 獲得顯著結果,您確實需要考慮您的顯著結果中有多少是不正確的。在上面的例子中,25% 的“顯著結果”是錯誤的!
[旁注:維基百科指出,儘管 FPR 在數學上等同於第一類錯誤率,但它在概念上被認為是不同的,因為一個通常是先驗設置的,而另一個通常用於衡量測試後的性能。這很重要,但我不會在這裡討論]。
為了更完整:
顯然,FPR 和 FDR 並不是您可以使用混淆矩陣中的四個量計算的唯一相關指標。在許多可能在不同情況下有用的指標中,您可能會遇到兩個相對常見的指標:
真陽性率 (TPR),也稱為敏感性,是被確定為患有該疾病的人的比例。
$$ TPR = \frac{TP}{TP + FN} $$
真陰性率 (TNR),也稱為特異性,是未患病的人被確定為未患病的比例。
$$ TNR = \frac{TN}{TN + FP} $$