Hypothesis-Testing

FPR(誤報率)與 FDR(誤報率)

  • March 24, 2018

以下引用來自Storey & Tibshirani (2003)著名的研究論文Statistical Significant

例如,5% 的誤報率意味著研究中平均 5% 的真正無效特徵將被稱為顯著。5% 的 FDR(錯誤發現率)意味著在所有稱為顯著的特徵中,平均有 5% 是真正的無效特徵。

有人可以使用簡單的數字或視覺示例來解釋這意味著什麼嗎?我很難理解這意味著什麼。我發現了各種關於 FDR 或 FPR 的帖子,但沒有找到任何進行具體比較的地方。

如果該領域的專家能夠說明其中一個比另一個更好,或者兩者都好或壞的情況,那將是特別好的。

我將以幾種不同的方式解釋這些,因為它幫助我理解了它。

讓我們舉一個具體的例子。您正在對一群人進行疾病測試。現在讓我們定義一些術語。對於以下每一項,我指的是經過測試的個人:

真陽性(TP):有病,確定為有病

假陽性(FP):沒有疾病,被確定為有疾病

真陰性(TN):沒有疾病,確定為沒有疾病

假陰性(FN):有疾病,被確定為沒有疾病

在視覺上,這通常使用混淆矩陣來顯示:

在此處輸入圖像描述

假**陽性率 (FPR)**是沒有患病但被確定為患病的人數(所有 FP)除以沒有患病的總人數(包括所有 FP 和 TN) .

$$ FPR = \frac{FP}{FP + TN} $$

**錯誤發現率 (FDR)**是未患病但被確定為患有該疾病的人數(所有 FP)除以被確定為患有該疾病的總人數(包括所有 FP 和 TP )。

$$ FDR = \frac{FP}{FP + TP} $$


那麼,區別在於分母,即您將誤報的數量與什麼進行比較?

FPR告訴您將被確定為患有該疾病的所有未患有該疾病的人的比例。

FDR告訴您在所有被確定患有該疾病的人中沒有該疾病的比例。

因此,兩者都是有用的、不同的失敗衡量標準。根據情況和 TP、FP、TN 和 FN 的比例,您可能更關心其中一個。


現在讓我們為此添加一些數字。你已經測量了 100 人的疾病,你得到以下結果:

真陽性(TP):12

誤報(FP):4

真陰性(TN):76

假陰性(FN):8

要使用混淆矩陣顯示這一點:

在此處輸入圖像描述

然後,

$$ FPR = \frac{FP}{FP + TN} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5% $$

$$ FDR = \frac{FP}{FP + TP} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25% $$

換句話說,

FPR 告訴您,在沒有患病的人中,有 5% 的人被確定為患病。FDR 告訴您,25% 的被確定患有該疾病的人實際上並未患有該疾病。


根據@amoeba 的評論進行編輯(也是上例中的數字):

為什麼區分如此重要?在您鏈接到的論文中,Storey 和 Tibhshirani 指出,在全基因組研究中,人們非常關注 FPR(或 I 型錯誤率),這導致人們做出有缺陷的推論。這是因為一旦你發現 $ n $ 通過修復 FPR 獲得顯著結果,您確實需要考慮您的顯著結果中有多少是不正確的。在上面的例子中,25% 的“顯著結果”是錯誤的!

[旁注:維基百科指出,儘管 FPR 在數學上等同於第一類錯誤率,但它在概念上被認為是不同的,因為一個通常是先驗設置的,而另一個通常用於衡量測試後的性能。這很重要,但我不會在這裡討論]。


為了更完整:

顯然,FPR 和 FDR 並不是您可以使用混淆矩陣中的四個量計算的唯一相關指標。在許多可能在不同情況下有用的指標中,您可能會遇到兩個相對常見的指標:

真陽性率 (TPR),也稱為敏感性,是被確定為患有該疾病的人的比例。

$$ TPR = \frac{TP}{TP + FN} $$

真陰性率 (TNR),也稱為特異性,是未患病的人被確定為未患病的比例。

$$ TNR = \frac{TN}{TN + FP} $$

引用自:https://stats.stackexchange.com/questions/336455

comments powered by Disqus