Machine-Learning

什麼是變量重要性?

  • March 12, 2018

搜索這個網站,我看到超過 1,000 條由搜索詞“變量重要性”觸發的帖子,主要與機器學習相關。但是,我以前從未遇到過這個定義。它是適用於特定(一組)模型的術語嗎?如果是這樣,它測量什麼以及如何測量?此外,它是否意味著比統計結果更廣泛的標準中的“重要性”?

我只在機器學習上下文中遇到過這個術語(即,人們對準確預測感興趣而不一定是理論推論感興趣的上下文),但這個概念可以應用於任何統計模型。

(我的)定義:變量重要性是指給定模型“使用”該變量做出準確預測的程度。模型越依賴變量進行預測,它對模型就越重要。

它可以應用於許多不同的模型,每個模型使用不同的指標。

想像一下標準普通最小二乘回歸中相同尺度的兩個變量。一個的回歸係數為 1.6,另一個的回歸係數為 0.003。前者是比後者更重要的變量,因為模型更多地依賴於前者(請記住,變量在同一尺度上,它們的係數可以直接比較)。另一種方法是查看添加每個變量時;一個更高的更重要。

同樣,可以比較隨機森林中使用的兩個變量。如果森林中的樹木在變量 A 上比變量 B 更多地分割樣本,則變量 A 對模型更重要。有很多指標可以量化這一點,例如,以下是流行randomForest::importance()包的文檔:

以下是變量重要性度量的定義。第一個度量是根據置換 OOB 數據計算的:對於每棵樹,記錄數據袋外部分的預測誤差(分類錯誤率,回歸的 MSE)。然後在排列每個預測變量後進行相同的操作。然後將兩者之間的差異對所有樹進行平均,並通過差異的標準偏差進行歸一化。如果變量的差異標準差等於 0,則不進行除法(但在這種情況下,平均值幾乎總是等於 0)。第二個衡量標準是在變量上拆分節點雜質的總減少量,對所有樹進行平均。對於分類,節點雜質通過基尼指數來衡量。對於回歸,

變量重要性通常用於變量選擇:我們可以從模型中刪除哪些變量(不會提供太多信息),以及我們應該確保在模型中始終測量和使用哪些變量?

James、Witten、Hastie 和 Tibshirani 撰寫的精彩的《統計學習導論》一書在整本書中多次專門討論了變量的重要性(例如,第 319、330 頁)。網址:http ://www-bcf.usc.edu/~gareth/ISL/ISLR%20Seventh%20Printing.pdf

引用自:https://stats.stackexchange.com/questions/332960

comments powered by Disqus