Random-Forest
輸出隨機森林預測方程的想法
我已經閱讀了以下回答我要問的問題的帖子:
這是我到目前為止所做的:我將 Logistic 回歸與隨機森林進行了比較,並且 RF 的表現優於 Logistic。現在,與我合作的醫學研究人員希望將我的射頻結果轉化為醫學診斷工具。例如:
如果您是 25 至 35 歲的亞洲男性,維生素 D 低於 xx 且血壓高於 xx,您有 76% 的機會患上 xxx 病。
然而,RF 並不適合簡單的數學方程(見上面的鏈接)。所以這是我的問題:你們對使用 RF 開發診斷工具有什麼想法(無需導出數百棵樹)。
以下是我的一些想法:
- 使用 RF 進行變量選擇,然後使用 Logistic(使用所有可能的交互)來製作診斷方程。
- 以某種方式將 RF 森林聚合成一棵“巨型樹”,以某種方式平均節點在樹上的分裂。
- 與 #2 和 #1 類似,使用 RF 選擇變量(比如總共 m 個變量),然後構建數百個分類樹,所有這些樹都使用每個 m 個變量,然後選擇最好的單棵樹。
還有其他想法嗎?此外,做#1 很容易,但是關於如何實現#2 和#3 的任何想法?
這裡有一些想法:
- 可能會以某種方式檢查所有黑盒模型。例如,您可以計算每個特徵的變量重要性,也可以繪製每個特徵的預測響應和實際響應(鏈接);
- 您可能會考慮對整體進行一些修剪。並非森林中的所有樹木都是必需的,您可能只使用幾棵。論文:[搜索最小隨機森林,張]。否則,只需谷歌“集成修剪”,並查看“集成方法:基礎和算法”第 6 章;
- 如您所說,您可以通過特徵選擇來構建單個模型。否則,您也可以嘗試在 [通過多個模型從示例中獲取知識] 中使用 Domingos 的方法,該方法包括構建具有黑盒預測的新數據集並在其之上構建決策樹。
- 正如 Stack Exchange 的回答中提到的,樹模型似乎可以解釋,但由於訓練數據的小擾動,它很容易發生很大的變化。因此,最好使用黑盒模型。最終用戶的最終目標是了解為什麼將新記錄歸類為特定類別。您可能會考慮僅針對該特定記錄的一些特徵重要性。
我會選擇 1 或 2。