Regression
我們應該對連續變量進行分類嗎?
我知道以前有人問過這個問題,並且我已經閱讀了對與分箱連續變量相關的早期查詢的回复。我確實理解通常我們應該避免分箱,因為它可能會導致丟棄有用的信息(以及其他問題)。但是,我正在嘗試建立一個邏輯回歸模型,而我的一個重要預測變量是一個連續變量。我嘗試了 2 種不同的模型。在第一個中,我按原樣(連續)輸入變量,而在第二個中,我將其作為分類變量(按四分位數分類)輸入。
第二個模型(帶有分箱變量)具有較低的 AIC 分數和交叉驗證錯誤。在這種特殊情況下,這是否可以被認為是分箱的充分理由?
這可能意味著您的預測變量與響應具有非線性關係,並且分箱允許模型捕獲一些這種非線性趨勢。查看數據的散點圖可以幫助您確定合適的擬合形狀。您可能想嘗試非線性連續擬合策略,例如多項式或樣條基礎變換。