Classification
分層與隨機抽樣對生成分類訓練數據的好處
我想知道在將原始數據集拆分為訓練集和測試集進行分類時,使用分層抽樣而不是隨機抽樣是否有任何/一些優勢。
此外,分層抽樣是否會比隨機抽樣向分類器引入更多的偏差?
我想使用分層抽樣進行數據準備的應用程序是一個隨機森林分類器,經過訓練 $ \frac{2}{3} $ 的原始數據集。在分類器之前,還有一個合成樣本生成步驟(SMOTE [1]),它平衡了類的大小。
[1] Chawla,Nitesh V.,等人。“ SMOTE:合成少數過採樣技術。 ” 人工智能研究雜誌 16 (2002): 321-357。
分層抽樣旨在拆分數據集,以便每個拆分在某些方面都相似。
在分類設置中,通常選擇確保訓練集和測試集具有與完整集大致相同百分比的每個目標類的樣本。
因此,如果數據集每個類別的數量很大,分層抽樣與隨機抽樣幾乎相同。但是,如果一個類在數據集中沒有太多代表,因為您計劃對少數類進行過採樣,所以在您的數據集中可能就是這種情況,那麼分層抽樣可能會在訓練和測試集中產生與隨機抽樣不同的目標類分佈採樣可能會產生。
請注意,分層抽樣也可以設計為在下一個訓練集和測試集中平均分配一些特徵。例如,如果每個樣本代表一個人,並且一個特徵是年齡,那麼在訓練集和測試集中具有相同的年齡分佈有時會很有用。
供參考: