我們應該對連續變量進行分類嗎？

May 21, 2015

我知道以前有人問過這個問題，並且我已經閱讀了對與分箱連續變量相關的早期查詢的回复。我確實理解通常我們應該避免分箱，因為它可能會導致丟棄有用的信息（以及其他問題）。但是，我正在嘗試建立一個邏輯回歸模型，而我的一個重要預測變量是一個連續變量。我嘗試了 2 種不同的模型。在第一個中，我按原樣（連續）輸入變量，而在第二個中，我將其作為分類變量（按四分位數分類）輸入。

第二個模型（帶有分箱變量）具有較低的 AIC 分數和交叉驗證錯誤。在這種特殊情況下，這是否可以被認為是分箱的充分理由？

這可能意味著您的預測變量與響應具有非線性關係，並且分箱允許模型捕獲一些這種非線性趨勢。查看數據的散點圖可以幫助您確定合適的擬合形狀。您可能想嘗試非線性連續擬合策略，例如多項式或樣條基礎變換。

引用自：https://stats.stackexchange.com/questions/153400

comments powered by Disqus

相關問答

Multiple-Regression

我已經在回歸中使用了我的整個數據集，我不應該將其用作預測模型嗎？

October 25, 2021

為什麼不鼓勵使用高階多項式進行回歸？

October 20, 2021

樣條插值是否被視為非參數模型？

April 1, 2021

當我們繪製數據然後在回歸模型中使用非線性變換時，我們是否在窺探數據？

August 22, 2020

Poisson Gamma Mixture = 負二項分佈？

July 27, 2020

泊松回歸合適嗎？

May 6, 2020