Logistic

逐步邏輯回歸和抽樣

  • December 10, 2010

我正在對 SPSS 中的一組數據進行逐步邏輯回歸。在這個過程中,我將我的模型擬合到一個大約為隨機的子集。佔總樣本的 60%,即約 330 例。

我發現有趣的是,每次我重新採樣數據時,都會在最終模型中出現不同的變量。一些預測變量總是存在於最終模型中,但其他預測變量會根據樣本進出。

我的問題是這個。處理這個問題的最佳方法是什麼?我希望看到預測變量的收斂,但事實並非如此。從操作的角度來看,一些模型更直觀(並且更容易向決策者解釋),而另一些模型更適合數據。

簡而言之,由於變量不斷變化,您建議如何處理我的情況?

提前謝謝了。

如果您要使用逐步過程,請不要重新採樣。一勞永逸地創建一個隨機子樣本。對其進行分析。根據保留的數據驗證結果。大多數“重要”變量可能會變得不重要。

(**編輯 12/2015:**您確實可以通過重新採樣、重複逐步過程和重新驗證來超越這種簡單的方法:這將引導您進入交叉驗證的形式。但在這種情況下,更複雜的變量方法選擇,例如嶺回歸、套索和彈性網絡可能比逐步回歸更可取。)

關注有意義的變量,而不是那些更適合數據的變量。如果您對 330 條記錄有多個變量,那麼您一開始就有很大的過度擬合風險。考慮對逐步回歸使用相當嚴格的進入和離開標準。基於 AIC 或而不是閾值測試或測試。

(我假設您已經進行了分析和探索以識別自變量的適當重新表達,您已經識別了可能的相互作用,並且您已經確定因變量的 logit 之間確實存在近似線性關係和回歸量。如果沒有,做這個必要的初步工作,然後才回到逐步回歸。)

順便說一句,請謹慎遵循我剛剛給出的一般建議:-)。您的方法應該取決於分析的目的(預測?外推?科學理解?決策?)以及數據的性質、變量的數量等。

引用自:https://stats.stackexchange.com/questions/5360

comments powered by Disqus