Machine-Learning
標準化/標準化:應該在對數據進行過採樣/欠採樣之前還是之後執行此操作?
在處理不平衡的數據集時,應該在採樣技術(例如過採樣或欠採樣)之前或之後進行 one-hot 編碼和數據標準化嗎?
它沒有太大區別,但您應該在對數據進行欠採樣/過採樣之前執行大多數預處理步驟(編碼、標準化/標準化等) 。
這是因為許多采樣技術需要訓練一個簡單的模型(例如SMOTE使用k-NN算法生成樣本,ClusteringCentroids欠採樣技術涉及k-means聚類)。這些模型在預處理數據集上具有更好的性能(例如,k-NN 和 k-means 都使用歐幾里德距離,這需要對數據進行歸一化)。
因此,為了使採樣技術發揮最佳效果,您應該事先執行任何可以執行的預處理步驟。話雖如此,如果您使用隨機的過度/不足採樣器,我認為它不會有太大的不同。