使用交叉驗證時的平均精度和召回率

August 8, 2013

我已經使用多個分類器對 2 類標記數據進行了分類，並且我使用了 5 折交叉驗證。對於每一折，我計算了 tp、tn、fp 和 fn。然後我計算了每個測試的準確率、精確度、召回率和 F 分數。我的問題是，當我想對結果進行平均時，我取了準確率的平均值，但是我可以平均精度、召回率和 F 分數嗎？或者這在數學上會是錯誤的嗎？PS 在每個折疊中使用的數據集在每個類的實例數量方面都非常平衡。

謝謝。

這-score，假設您使用通常的定義，已經是精度和召回率的組合。具體來說，它是它們的調和平均值。換句話說

它旨在捕捉系統的“有效性”，其中用戶對精確度和召回率賦予相同的權重。有一個擴展名為分數，它給出召回的權重是精度的兩倍。

另一方面，如果您要問是否可以平均 5分數（每個折疊一個），那麼答案是肯定的。事實上，這是報告系統性能的典型方式！請注意，使用這些值來推斷分類器的泛化錯誤存在一些問題。例如，一個- 測試之間一個分類器的分數和另一個分類器的分數將過於樂觀。

引用自：https://stats.stackexchange.com/questions/66864

comments powered by Disqus

相關問答

Machine-Learning

為什麼 ROC 對類分佈不敏感？

September 20, 2021

Machine-Learning

為什麼我和我的同事對測試集和驗證集的定義相反？

May 24, 2021

應該如何比較兩個交叉驗證的邏輯回歸模型？

September 9, 2020

德國的 COVID，時間序列的 LOO-CV

May 22, 2020

Machine-Learning

結合 PCA、特徵縮放和交叉驗證，而不會洩露訓練測試數據

January 17, 2020

Machine-Learning

留一法交叉驗證 (LOOCV) 是否會系統地高估錯誤？

December 8, 2019