Data-Mining

當我只有一個 PR 值時,如何形成 Precision-Recall 曲線?

  • April 17, 2014

我有一個數據挖掘任務,我在其中製作基於內容的圖像檢索系統。我有 5 種動物的 20 張圖片。所以總共有100張圖片。

我的系統將 10 個最相關的圖像返回到輸入圖像。現在我需要使用 Precision-Recall 曲線來評估我的系統的性能。但是,我不理解 Precision-Recall 曲線的概念。假設我的系統為大猩猩圖像返回 10 張圖像,但其中只有 4 張是大猩猩。返回的其他 6 張圖像是其他動物的。因此,

  • 精度是4/10 = 0.4(返回的相關項)/(全部返回)
  • 召回是4/20 = 0.2(相關返回)/(所有相關)

所以我只有一個點,<0.2,0.4>而不是曲線。我如何有一條曲線(即一組點)?我是否應該更改返回的圖像數量(在我的情況下固定為 10)?

生成 PR 曲線類似於生成 ROC 曲線。要繪製這樣的圖,您需要對測試集進行完整排名。要進行此排名,您需要一個輸出決策值而不是二元答案的分類器。決策值是對預測的置信度的度量,我們可以使用它來對所有測試實例進行排名。例如,邏輯回歸和 SVM 的決策值分別是到分離超平面的概率和(有符號)距離。

如果您處理決策值,您將在所述決策值上定義一組閾值。這些閾值是分類器的不同設置:例如,您可以控制保守程度。對於邏輯回歸,默認閾值為但你可以遍歷整個範圍. 通常,閾值被選擇為您的模型為測試集產生的唯一決策值。

在每次選擇閾值時,您的模型都會產生不同的預測(例如,不同數量的正面和負面預測)。因此,您會得到一組具有不同精度和召回率的元組,例如一組元組. PR曲線是根據對。

如果我正確理解了您的評論,您計算的總相似度得分可以用作決策值。

引用自:https://stats.stackexchange.com/questions/94189

comments powered by Disqus