Classification

對於分類問題,如果類變量分佈不均,我們應該使用哪種技術?

  • August 26, 2010

例如。如果我有一個類別變量信用評分,分為好和壞兩個類別,其中 #(good) = 700 和 #(bad)= 300。我不想縮短我的數據。我應該使用哪種技術?我使用的是 SVM,但它在預測中給出的都是壞的。

您的班級樣本量似乎並沒有那麼不平衡,因為您在少數班級中有 30% 的觀察結果。在您的情況下,邏輯回歸應該表現良好。根據進入模型的預測變量的數量,您可能會考慮對參數估計進行某種懲罰,例如 ridge (L2) 或 lasso (L1)。有關非常不平衡類問題的概述,請參閱 Cramer (1999), The Statistician, 48: 85-94 ( PDF )。

我不熟悉信用評分技術,但我發現一些論文建議您可以將 SVM 與加權類一起使用,例如Support Vector Machines for Credit Scoring: E​​xtension to Non Standard Cases。作為替代方案,您可以查看使用 CART 或隨機森林的提升方法(在後一種情況下,可以調整採樣策略,以便在構建分類樹時表示每個類)。Novak 和 LaDue 的論文討論了GLM 與遞歸分區的優缺點。我還發現了這篇文章,Hand 和 Vinciotti 撰寫的具有不平衡班級規模的記分卡構造。

引用自:https://stats.stackexchange.com/questions/2131

comments powered by Disqus