Classification
使用交叉驗證時的平均精度和召回率
我已經使用多個分類器對 2 類標記數據進行了分類,並且我使用了 5 折交叉驗證。對於每一折,我計算了 tp、tn、fp 和 fn。然後我計算了每個測試的準確率、精確度、召回率和 F 分數。我的問題是,當我想對結果進行平均時,我取了準確率的平均值,但是我可以平均精度、召回率和 F 分數嗎?或者這在數學上會是錯誤的嗎?PS 在每個折疊中使用的數據集在每個類的實例數量方面都非常平衡。
謝謝。
這-score,假設您使用通常的定義,已經是精度和召回率的組合。具體來說,它是它們的調和平均值。換句話說
它旨在捕捉系統的“有效性”,其中用戶對精確度和召回率賦予相同的權重。有一個擴展名為分數,它給出召回的權重是精度的兩倍。
另一方面,如果您要問是否可以平均 5分數(每個折疊一個),那麼答案是肯定的。事實上,這是報告系統性能的典型方式! 請注意,使用這些值來推斷分類器的泛化錯誤存在一些問題。例如,一個- 測試之間一個分類器的分數和另一個分類器的分數將過於樂觀。