Machine-Learning

從訓練集中刪除重複項以進行分類

  • February 20, 2012

假設我有一堆用於分類問題的行:

在哪裡是特徵/預測變量和是行的特徵組合所屬的類。

許多特徵組合及其類在數據集中重複出現,我用它來擬合分類器。我只是想知道刪除重複項是否可以接受(我基本上group by X1 ... XN Y在 SQL 中執行)?謝謝。

PS:

這是針對類先驗非常偏斜的僅二進制存在數據集

不,這是不可接受的。重複提供了證據的分量。

如果刪除重複項,則四葉草與普通三葉草一樣重要,因為每個三葉草都會出現一次,而在現實生活中,每 10,000 顆普通三葉草就有一棵四葉草。

即使您的先驗“非常偏斜”,正如您所說,訓練集的目的是積累實際經驗,如果丟失頻率信息,您將無法實現。

引用自:https://stats.stackexchange.com/questions/23143

comments powered by Disqus