變量重要性排名有什麼用?
當談到可變重要性排名時(在各種多元模型的背景下),我已經變得有點虛無主義者了。
在我的工作過程中,我經常被要求幫助另一個團隊生成可變重要性排名,或者根據我自己的工作生成可變重要性排名。針對這些要求,我提出以下問題
你想要這個可變重要性排名的目的是什麼?你希望從中學到什麼?您想使用它做出什麼樣的決定?
我收到的答案幾乎總是屬於以下兩類之一
- 我想知道我的模型中不同變量在預測響應中的重要性。
- 我想通過刪除低重要性變量來使用它進行特徵選擇。
第一個反應是重言式(我想要一個可變的重要性排名,因為我想要一個可變的重要性排名)。我必須假設這些排名在使用多元模型的輸出時滿足了心理需求。我很難理解這一點,因為單獨對變量“重要性”進行排名似乎隱含地拒絕了所討論模型的多維性質。
第二個響應本質上簡化為一種非正式版本的反向選擇,其統計上的錯誤在 CrossValidated 的其他部分中有詳細記錄。
我還與重要性排名的不明確性質作鬥爭。對於排名應該衡量的基本概念似乎幾乎沒有一致意見,這給了他們一種非常特別的味道。分配重要性分數或排名的方法有很多,但它們通常存在缺點和注意事項:
- 它們可能高度依賴於算法,例如隨機森林和 gbms 中的重要性排名。
- 它們可能具有極高的方差,隨著對基礎數據的擾動而發生巨大變化。
- 它們可能會因輸入預測變量的相關性而受到很大影響。
因此,儘管如此,我的問題是,變量重要性排名的一些統計有效用途是什麼,或者,對於這種願望的徒勞,什麼是令人信服的論據(對於統計學家或外行而言)?我對一般的理論論證和案例研究都感興趣,以更有效地說明這一點為準。
正如這個問題所提出的那樣,我認為可變重要性是一個模糊的概念。正如@DexGroves 所指出的,您對問題的重言式第一類回應以及那些將變量重要性解釋為因果關係的人的不切實際的希望幾乎不需要詳細說明。
然而,為了公平起見,即使是弗蘭克·哈雷爾(Frank Harrell)也允許將其作為建模策略的一部分。從他的Regression Modeling Strategies , 2nd edition 的第 97 頁(相關課程筆記的第 131 頁有類似的聲明):
- 如果簡約比準確性更重要,請進行有限的向後遞減變量選擇。
然而,反向選擇的這種有限的潛在用途是第 13 步,即最終模型(第 14 步)之前的最後一步。它發生在關鍵的第一步之後:
- 盡可能多地收集準確的相關數據,預測變量值的分佈範圍很廣……
- 制定好的假設,導致相關候選預測變量和可能的相互作用的規範……
以我的經驗,人們經常想繞過第 2 步,讓一些自動化程序代替主題知識的智能應用。這可能會導致一些重點放在可變重要性上。
Harrell 步驟 14 的完整模型之後是 5 個進一步的驗證和調整步驟,最後一步是:
- 通過將其近似到任何所需的準確度來開發對完整模型的簡化。
正如其他答案所指出的,在建模結果的實際應用中存在可操作性、成本和簡單性問題。例如,如果我開發了一種新的癌症生物標誌物,可以提高預後,但每次測試花費 100,000 美元,那麼可能很難說服保險公司或政府支付測試費用,除非它非常有用。因此,有人希望專注於“最重要”的變量,或者將一個準確的模型簡化為一個不太準確但更容易或更便宜的模型,這並非不合理。
但是這種變量選擇和模型簡化應該是針對特定目的的,我認為這就是困難所在。這個問題類似於僅根據正確分類的案例百分比來評估分類方案。正如不同的分類錯誤可能有不同的成本一樣,不同的模型簡化方案可能有不同的成本,以平衡它們的期望收益。
因此,我認為作為分析師應該關注的問題是能夠通過統計建模程序可靠地估計和說明這些成本和收益,而不是過多地擔心統計有效性本身的抽象概念。例如,上面鏈接的 Harrell 課堂筆記的第 157-8 頁有一個使用引導程序以最小二乘法顯示排名預測變量的變化的示例;對於 LASSO 選擇的變量集,可以找到類似的結果。
如果變量選擇中的這種可變性不會妨礙模型的特定實際應用,那也沒關係。工作是估計簡化將導致多少和什麼類型的麻煩。