Classification
小型訓練集的良好分類器
在連續自變量(特徵)和小訓練集(特別是訓練樣例數約等於自變量數的情況下)的情況下,有哪些好的分類方法?在這裡,小意味著大約 50。我對能夠知道哪些變量是“重要的”特別感興趣。理想情況下,我正在尋找一種訓練步驟計算效率高的方法;我不太關心實際分類任務的計算成本。
首先,您可能想看一下《統計學習要素》。他們在第 3 章中討論了變量選擇以及不同的正則化技術(不要介意它是關於回歸的)。
如果您認為您的變量基本上不相關,並且應該進入模型或不進入模型,那麼您可能想看看隨機森林。他們試圖通過從略有不同的數據子集(案例和變量的子集)構建大量模型來解決小樣本量問題。此外,它們可以告訴您有多少決策樹使用了哪個變量,這有助於您選擇變量。
但是,如果您認為您的變量可能是相關的,則 PCA-LDA 或 PLS-LDA 等方法可能更合適。如果正確鏈接它們,您甚至可以導出係數,告訴您有多少原始變量進入了 LD 函數。(如果有幫助,你可以向我索要 R 代碼)。我會在這裡選擇 LDA 而不是邏輯回歸,因為 LR 往往需要更多的訓練案例。