使用隨機森林(或其他分類器)進行分層分類
所以,我有一個大約 60 x 1000 的矩陣。我將其視為具有 1000 個特徵的 60 個對象;60 個對象分為 3 個類(a、b、c)。每個類有 20 個對象,我們知道真正的分類。我想對這組 60 個訓練示例進行監督學習,我對分類器準確性(和相關指標)以及 1000 個特徵的特徵選擇都很感興趣。
首先,我的命名如何?
現在真正的問題:
如前所述,我可以在其上扔隨機森林,或任何數量的其他分類器。但是有一個微妙之處——我真的只關心區分 c 類和 a 類和 b 類。我可以合併 a 和 b 類,但是有沒有一種很好的方法來使用所有非 c 對象可能形成兩個不同的集群*的先驗知識?*我更喜歡使用隨機森林或其變體,因為它已被證明對類似於我的數據有效。但我可能會被說服嘗試其他一些方法。
有沒有一種很好的方法來使用所有非 c 對象可能形成兩個不同的集群的先驗知識
如果您使用的是基於樹的方法,我認為這並不重要,因為這些分類器會劃分特徵空間,然後查看每個類中樣本的比例。所以重要的是每個終端節點中類 c 的相對出現。
但是,如果您使用的是法線、LDA 等的混合,那麼組合兩個集群將是一個壞主意(假設 a 和 b 類形成唯一的集群)。這裡需要保留類結構以準確描述映射到 a、b 和 c 的特徵空間。這些模型假設每個類的特徵具有不同的正態分佈。如果將 a 和 b 結合起來,您將強制將單個正態分佈擬合到混合物中。
總而言之,對於樹木,如果您:
I. 創建三個分類器(1. a vs b、2. a vs c 和 3. b vs c)然後使用基於投票的方法進行預測。
二、合併類 a 和 b 以形成一個二分類問題。
三、預測所有三個類別,然後將預測映射到兩個類別值(例如 f(c) = c,f(a) = not c,f(b) = not c)。
但是,如果您使用一種適合每個類的分佈的方法,那麼請避免使用 II。並測試 I. 或 III 中的哪一個。更適合您的問題