Predictive-Models

是否重新調整 LASSO 的指標/二進制/虛擬預測器

  • September 9, 2013

對於 LASSO(和其他模型選擇程序),重新調整預測變量至關重要。我遵循一般 建議 只是對連續變量使用 0 均值、1 標準差標準化。但是跟假人有什麼關係呢?

例如,我鏈接到的同一所(優秀)暑期學校的一些應用示例將連續變量重新調整為 0 和 1 之間(儘管異常值不是很好),可能與假人相當。但即使這樣也不能保證係數應該是相同的數量級,因此受到類似的懲罰,這是重新調整的關鍵原因,不是嗎?

根據 Tibshirani(COX 模型中變量選擇的套索方法,醫學統計,第 16 卷,385-395 (1997)),他寫了一本關於正則化方法的書,你應該標準化假人。但是,您將失去係數的直接可解釋性。如果你不這樣做,你的變量就不是一個公平的競爭環境。您基本上是在傾斜天平以支持您的連續變量(很可能)。因此,如果您的主要目標是模型選擇,那麼這是一個嚴重的錯誤。但是,如果您對解釋更感興趣,那麼這可能不是最好的主意。

建議在第 394 頁:

lasso 方法需要對回歸器進行初始標準化,以便懲罰方案對所有回歸器都是公平的。對於分類回歸變量,可以使用虛擬變量對回歸變量進行編碼,然後對虛擬變量進行標準化。然而,正如裁判所指出的,該方案中連續變量和分類變量之間的相對比例可能有些隨意。

引用自:https://stats.stackexchange.com/questions/69568

comments powered by Disqus