Model-Selection

在進行反向消除時,我應該如何處理具有多個級別的分類變量?

  • January 7, 2011

我正在做一個簡單的基於 AIC 的反向消除模型,其中一些變量是具有多個級別的分類變量。這些變量被建模為一組虛擬變量。在進行反向消除時,我應該一起刪除變量的所有級別嗎?或者我應該分別對待每個虛擬變量嗎?為什麼?

作為一個相關問題,R 中的 step 在進行反向消除時分別處理每個虛擬變量。如果我想一次刪除整個分類變量,我可以使用 step 嗎?或者是否有替代步驟可以處理這個問題?

我認為您必須刪除整個分類變量。想像一個邏輯回歸,您試圖預測一個人是否患有疾病。出生國家/地區可能對此有重大影響,因此您將其包含在模型中。如果特定的美國原產地對AIC沒有任何影響而你放棄了它,你將如何計算一個美國人?R 默認使用因子的參考對比,所以我認為它們只是在參考水平(比如博茨瓦納)計算,如果有的話。這恐怕不會有好的結局……

更好的選擇是事先對出生國家的合理編碼進行分類 - 分解為地區、大陸等,然後找出最適合您的模型的編碼。

當然,有很多方法會誤用逐步變量選擇,因此請確保您使用正確。不過,這個網站上有很多相關內容;搜索“逐步”會帶來一些好的結果。 這一點特別中肯,答案中有很多很好的建議。

引用自:https://stats.stackexchange.com/questions/6050

comments powered by Disqus