FPR（誤報率）與 FDR（誤報率）

March 24, 2018

以下引用來自Storey & Tibshirani (2003)著名的研究論文Statistical Significant

例如，5% 的誤報率意味著研究中平均 5% 的真正無效特徵將被稱為顯著。5% 的 FDR（錯誤發現率）意味著在所有稱為顯著的特徵中，平均有 5% 是真正的無效特徵。

有人可以使用簡單的數字或視覺示例來解釋這意味著什麼嗎？我很難理解這意味著什麼。我發現了各種關於 FDR 或 FPR 的帖子，但沒有找到任何進行具體比較的地方。

如果該領域的專家能夠說明其中一個比另一個更好，或者兩者都好或壞的情況，那將是特別好的。

我將以幾種不同的方式解釋這些，因為它幫助我理解了它。

讓我們舉一個具體的例子。您正在對一群人進行疾病測試。現在讓我們定義一些術語。對於以下每一項，我指的是經過測試的個人：

真陽性（TP）：有病，確定為有病

假陽性（FP）：沒有疾病，被確定為有疾病

真陰性（TN）：沒有疾病，確定為沒有疾病

假陰性（FN）：有疾病，被確定為沒有疾病

在視覺上，這通常使用混淆矩陣來顯示：

在此處輸入圖像描述

假**陽性率 (FPR)**是沒有患病但被確定為患病的人數（所有 FP）除以沒有患病的總人數（包括所有 FP 和 TN） .

$$ FPR = \frac{FP}{FP + TN} $$

**錯誤發現率 (FDR)**是未患病但被確定為患有該疾病的人數（所有 FP）除以被確定為患有該疾病的總人數（包括所有 FP 和 TP ）。

$$ FDR = \frac{FP}{FP + TP} $$

那麼，區別在於分母，即您將誤報的數量與什麼進行比較？

FPR告訴您將被確定為患有該疾病的所有未患有該疾病的人的比例。

FDR告訴您在所有被確定患有該疾病的人中沒有該疾病的比例。

因此，兩者都是有用的、不同的失敗衡量標準。根據情況和 TP、FP、TN 和 FN 的比例，您可能更關心其中一個。

現在讓我們為此添加一些數字。你已經測量了 100 人的疾病，你得到以下結果：

真陽性（TP）：12

誤報（FP）：4

真陰性（TN）：76

假陰性（FN）：8

要使用混淆矩陣顯示這一點：

然後，

$$ FPR = \frac{FP}{FP + TN} = \frac{4}{4 + 76} = \frac{4}{80} = 0.05 = 5% $$

$$ FDR = \frac{FP}{FP + TP} = \frac{4}{4 + 12} = \frac{4}{16} = 0.25 = 25% $$

換句話說，

FPR 告訴您，在沒有患病的人中，有 5% 的人被確定為患病。FDR 告訴您，25% 的被確定患有該疾病的人實際上並未患有該疾病。

根據@amoeba 的評論進行編輯（也是上例中的數字）：

為什麼區分如此重要？在您鏈接到的論文中，Storey 和 Tibhshirani 指出，在全基因組研究中，人們非常關注 FPR（或 I 型錯誤率），這導致人們做出有缺陷的推論。這是因為一旦你發現 $ n $ 通過修復 FPR 獲得顯著結果，您確實需要考慮您的顯著結果中有多少是不正確的。在上面的例子中，25% 的“顯著結果”是錯誤的！

[旁注：維基百科指出，儘管 FPR 在數學上等同於第一類錯誤率，但它在概念上被認為是不同的，因為一個通常是先驗設置的，而另一個通常用於衡量測試後的性能。這很重要，但我不會在這裡討論]。

為了更完整：

顯然，FPR 和 FDR 並不是您可以使用混淆矩陣中的四個量計算的唯一相關指標。在許多可能在不同情況下有用的指標中，您可能會遇到兩個相對常見的指標：

真陽性率 (TPR)，也稱為敏感性，是被確定為患有該疾病的人的比例。

$$ TPR = \frac{TP}{TP + FN} $$

真陰性率 (TNR)，也稱為特異性，是未患病的人被確定為未患病的比例。

$$ TNR = \frac{TN}{TN + FP} $$

引用自：https://stats.stackexchange.com/questions/336455

comments powered by Disqus

FPR（誤報率）與 FDR（誤報率）

在此處輸入圖像描述

相關問答

當靈敏度 = 1.000 和特異性 = 0.000 時，這意味著什麼？

Benjamini-Hochberg 程序中錯誤發現率的證明/推導

我們什麼時候“停止”使用多種校正技術？

敏感度和召回率有什麼區別嗎？

“自由”p值？

為什麼在發現顯著結果之前收集數據會增加 I 類錯誤率？