Random-Forest

輸出隨機森林預測方程的想法

  • October 8, 2013

我已經閱讀了以下回答我要問的問題的帖子:

使用隨機森林模型根據傳感器數據進行預測

輸出預測的決策樹

這是我到目前為止所做的:我將 Logistic 回歸與隨機森林進行了比較,並且 RF 的表現優於 Logistic。現在,與我合作的醫學研究人員希望將我的射頻結果轉化為醫學診斷工具。例如:

如果您是 25 至 35 歲的亞洲男性,維生素 D 低於 xx 且血壓高於 xx,您有 76% 的機會患上 xxx 病。

然而,RF 並不適合簡單的數學方程(見上面的鏈接)。所以這是我的問題:你們對使用 RF 開發診斷工具有什麼想法(無需導出數百棵樹)。

以下是我的一些想法:

  1. 使用 RF 進行變量選擇,然後使用 Logistic(使用所有可能的交互)來製作診斷方程。
  2. 以某種方式將 RF 森林聚合成一棵“巨型樹”,以某種方式平均節點在樹上的分裂。
  3. 與 #2 和 #1 類似,使用 RF 選擇變量(比如總共 m 個變量),然後構建數百個分類樹,所有這些樹都使用每個 m 個變量,然後選擇最好的單棵樹。

還有其他想法嗎?此外,做#1 很容易,但是關於如何實現#2 和#3 的任何想法?

這裡有一些想法:

  1. 可能會以某種方式檢查所有黑盒模型。例如,您可以計算每個特徵的變量重要性,也可以繪製每個特徵的預測響應和實際響應(鏈接);
  2. 您可能會考慮對整體進行一些修剪。並非森林中的所有樹木都是必需的,您可能只使用幾棵。論文:[搜索最小隨機森林,張]。否則,只需谷歌“集成修剪”,並查看“集成方法:基礎和算法”第 6 章
  3. 如您所說,您可以通過特徵選擇來構建單個模型。否則,您也可以嘗試在 [通過多個模型從示例中獲取知識] 中使用 Domingos 的方法,該方法包括構建具有黑盒預測的新數據集並在其之上構建決策樹。
  4. 正如 Stack Exchange 的回答中提到,樹模型似乎可以解釋,但由於訓練數據的小擾動,它很容易發生很大的變化。因此,最好使用黑盒模型。最終用戶的最終目標是了解為什麼將新記錄歸類為特定類別。您可能會考慮僅針對該特定記錄的一些特徵重要性。

我會選擇 1 或 2。

引用自:https://stats.stackexchange.com/questions/72266

comments powered by Disqus