Machine-Learning
從訓練集中刪除重複項以進行分類
假設我有一堆用於分類問題的行:
在哪裡是特徵/預測變量和是行的特徵組合所屬的類。
許多特徵組合及其類在數據集中重複出現,我用它來擬合分類器。我只是想知道刪除重複項是否可以接受(我基本上
group by X1 ... XN Y
在 SQL 中執行)?謝謝。PS:
這是針對類先驗非常偏斜的僅二進制存在數據集
不,這是不可接受的。重複提供了證據的分量。
如果刪除重複項,則四葉草與普通三葉草一樣重要,因為每個三葉草都會出現一次,而在現實生活中,每 10,000 顆普通三葉草就有一棵四葉草。
即使您的先驗“非常偏斜”,正如您所說,訓練集的目的是積累實際經驗,如果丟失頻率信息,您將無法實現。