小型訓練集的良好分類器

July 7, 2013

在連續自變量（特徵）和小訓練集（特別是訓練樣例數約等於自變量數的情況下）的情況下，有哪些好的分類方法？在這裡，小意味著大約 50。我對能夠知道哪些變量是“重要的”特別感興趣。理想情況下，我正在尋找一種訓練步驟計算效率高的方法；我不太關心實際分類任務的計算成本。

首先，您可能想看一下《統計學習要素》。他們在第 3 章中討論了變量選擇以及不同的正則化技術（不要介意它是關於回歸的）。

如果您認為您的變量基本上不相關，並且應該進入模型或不進入模型，那麼您可能想看看隨機森林。他們試圖通過從略有不同的數據子集（案例和變量的子集）構建大量模型來解決小樣本量問題。此外，它們可以告訴您有多少決策樹使用了哪個變量，這有助於您選擇變量。

但是，如果您認為您的變量可能是相關的，則 PCA-LDA 或 PLS-LDA 等方法可能更合適。如果正確鏈接它們，您甚至可以導出係數，告訴您有多少原始變量進入了 LD 函數。（如果有幫助，你可以向我索要 R 代碼）。我會在這裡選擇 LDA 而不是邏輯回歸，因為 LR 往往需要更多的訓練案例。

引用自：https://stats.stackexchange.com/questions/63565

comments powered by Disqus

相關問答

Mathematical-Statistics

6 名 Corona 陽性 (COVID-19) 女性的母乳不含病毒——我們可以對此發表信心聲明嗎？

March 18, 2020

Neural-Networks

過採樣：整集或訓練集

June 20, 2018

Data-Visualization

繪製小樣本

February 17, 2016

R

使用 H0 下的 bootstrap 對兩種均值的差異進行檢驗：組內替換或合併樣本內的替換

February 7, 2015

短時間序列的最佳方法

January 26, 2015

Hypothesis-Testing

如何在小樣本中選擇 t 檢驗或非參數檢驗，例如 Wilcoxon

October 29, 2014