Unbalanced-Classes
ROSE 和 SMOTE 過採樣方法
有人可以簡要解釋一下這兩種重採樣方法之間的區別:ROSE 和 SMOTE 嗎?
ROSE 使用平滑引導從少數類周圍的特徵空間鄰域中抽取人工樣本。
SMOTE 通過選擇位於將稀有觀測值連接到特徵空間中其最近鄰居之一的線上的點來繪製人工樣本。
資料來源:使用不平衡數據訓練和評估分類規則
我的經驗:我使用這兩種技術來創建平衡數據,並發現 SMOTE(來自 R’s
DMwR-package
)可以產生更好的結果。在我看來,原因是 SMOTE 沒有像 ROSE 那樣創造出那麼多“不切實際”的價值觀。ROSE 給了我完全不可能的值(負面積大小或海拔)。您可以指定 ROSE 從中抽取樣本的鄰域,並在一定程度上緩解這些問題。但是 SMOTE 仍然產生了更好的訓練數據來預測我的原始(不平衡)數據。不過,這兩種技術都優於過採樣和欠採樣。