分層與隨機抽樣對生成分類訓練數據的好處

December 7, 2016

我想知道在將原始數據集拆分為訓練集和測試集進行分類時，使用分層抽樣而不是隨機抽樣是否有任何/一些優勢。

此外，分層抽樣是否會比隨機抽樣向分類器引入更多的偏差？

我想使用分層抽樣進行數據準備的應用程序是一個隨機森林分類器，經過訓練 $ \frac{2}{3} $ 的原始數據集。在分類器之前，還有一個合成樣本生成步驟（SMOTE [1]），它平衡了類的大小。

[1] Chawla，Nitesh V.，等人。“ SMOTE：合成少數過採樣技術。 ” 人工智能研究雜誌 16 (2002): 321-357。

分層抽樣旨在拆分數據集，以便每個拆分在某些方面都相似。

在分類設置中，通常選擇確保訓練集和測試集具有與完整集大致相同百分比的每個目標類的樣本。

因此，如果數據集每個類別的數量很大，分層抽樣與隨機抽樣幾乎相同。但是，如果一個類在數據集中沒有太多代表，因為您計劃對少數類進行過採樣，所以在您的數據集中可能就是這種情況，那麼分層抽樣可能會在訓練和測試集中產生與隨機抽樣不同的目標類分佈採樣可能會產生。

請注意，分層抽樣也可以設計為在下一個訓練集和測試集中平均分配一些特徵。例如，如果每個樣本代表一個人，並且一個特徵是年齡，那麼在訓練集和測試集中具有相同的年齡分佈有時會很有用。

供參考：

為什麼要使用分層交叉驗證？為什麼這不會損害與差異相關的利益？

了解分層交叉驗證

引用自：https://stats.stackexchange.com/questions/250273

comments powered by Disqus

相關問答

Multiple-Regression

我已經在回歸中使用了我的整個數據集，我不應該將其用作預測模型嗎？

October 25, 2021

Machine-Learning

為什麼我和我的同事對測試集和驗證集的定義相反？

May 24, 2021

Predictive-Models

我可以（合理地）僅根據先前模型預測不佳的觀察結果訓練第二個模型嗎？

May 5, 2021

隨機森林是否擅長檢測交互項？

January 10, 2021

應該如何比較兩個交叉驗證的邏輯回歸模型？

September 9, 2020

Neural-Networks

將“外部”數據集添加到訓練數據集中通常有幫助嗎？[關閉]

June 29, 2020