Machine-Learning

標準化/標準化：應該在對數據進行過採樣/欠採樣之前還是之後執行此操作？

August 21, 2018

在處理不平衡的數據集時，應該在採樣技術（例如過採樣或欠採樣）之前或之後進行 one-hot 編碼和數據標準化嗎？

它沒有太大區別，但您應該在對數據進行欠採樣/過採樣之前執行大多數預處理步驟（編碼、標準化/標準化等）。

這是因為許多采樣技術需要訓練一個簡單的模型（例如SMOTE使用k-NN算法生成樣本，ClusteringCentroids欠採樣技術涉及k-means聚類）。這些模型在預處理數據集上具有更好的性能（例如，k-NN 和 k-means 都使用歐幾里德距離，這需要對數據進行歸一化）。

因此，為了使採樣技術發揮最佳效果，您應該事先執行任何可以執行的預處理步驟。話雖如此，如果您使用隨機的過度/不足採樣器，我認為它不會有太大的不同。

引用自：https://stats.stackexchange.com/questions/363312

comments powered by Disqus

相關問答

Unbalanced-Classes

不平衡的數據集是否存在問題，以及（如何）過採樣（聲稱）有幫助？

July 16, 2018

Neural-Networks

過採樣：整集或訓練集

June 20, 2018

Unbalanced-Classes

ROSE 和 SMOTE 過採樣方法

August 10, 2015

Unbalanced-Classes

使用分類變量過採樣

June 18, 2014