使用隨機森林（或其他分類器）進行分層分類

August 16, 2012

所以，我有一個大約 60 x 1000 的矩陣。我將其視為具有 1000 個特徵的 60 個對象；60 個對象分為 3 個類（a、b、c）。每個類有 20 個對象，我們知道真正的分類。我想對這組 60 個訓練示例進行監督學習，我對分類器準確性（和相關指標）以及 1000 個特徵的特徵選擇都很感興趣。

首先，我的命名如何？

現在真正的問題：

如前所述，我可以在其上扔隨機森林，或任何數量的其他分類器。但是有一個微妙之處——我真的只關心區分 c 類和 a 類和 b 類。我可以合併 a 和 b 類，但是有沒有一種很好的方法來使用所有非 c 對象可能形成兩個不同的集群*的先驗知識？*我更喜歡使用隨機森林或其變體，因為它已被證明對類似於我的數據有效。但我可能會被說服嘗試其他一些方法。

有沒有一種很好的方法來使用所有非 c 對象可能形成兩個不同的集群的先驗知識

如果您使用的是基於樹的方法，我認為這並不重要，因為這些分類器會劃分特徵空間，然後查看每個類中樣本的比例。所以重要的是每個終端節點中類 c 的相對出現。

但是，如果您使用的是法線、LDA 等的混合，那麼組合兩個集群將是一個壞主意（假設 a 和 b 類形成唯一的集群）。這裡需要保留類結構以準確描述映射到 a、b 和 c 的特徵空間。這些模型假設每個類的特徵具有不同的正態分佈。如果將 a 和 b 結合起來，您將強制將單個正態分佈擬合到混合物中。

總而言之，對於樹木，如果您：

I. 創建三個分類器（1. a vs b、2. a vs c 和 3. b vs c）然後使用基於投票的方法進行預測。

二、合併類 a 和 b 以形成一個二分類問題。

三、預測所有三個類別，然後將預測映射到兩個類別值（例如 f(c) = c，f(a) = not c，f(b) = not c）。

但是，如果您使用一種適合每個類的分佈的方法，那麼請避免使用 II。並測試 I. 或 III 中的哪一個。更適合您的問題

引用自：https://stats.stackexchange.com/questions/34482

comments powered by Disqus

使用隨機森林（或其他分類器）進行分層分類

相關問答

哪個是第一位的 - 領域專業知識或實驗方法？

可以使用多項式邏輯回歸學習任何數據嗎

我如何使我的二元分類器偏愛假陽性錯誤而不是假陰性？

隨機森林是否擅長檢測交互項？

邏輯回歸是神經網絡的一個特例嗎？

Brier 分數和極端的階級失衡