Multiple-Regression
多重共線性和样條回歸是否存在問題?
當使用自然(即受限)三次樣條時,創建的基函數是高度共線性的,當用於回歸時,似乎會產生非常高的 VIF(方差膨脹因子)統計數據,表明存在多重共線性。當人們出於預測目的考慮模型的情況時,這是一個問題嗎?由於樣條構造的性質,情況似乎總是如此。
這是R中的一個例子:
library(caret) library(Hmisc) library(car) data(GermanCredit) spl_mat<-rcspline.eval(GermanCredit$Amount, nk=5, inclx=TRUE) #natural cubic splines with 5 knots class<-ifelse(GermanCredit$Class=='Bad',1,0) #binary target variable dat<-data.frame(cbind(spl_mat,class)) cor(spl_mat) OUTPUT: x x 1.0000000 0.9386463 0.9270723 0.9109491 0.9386463 1.0000000 0.9994380 0.9969515 0.9270723 0.9994380 1.0000000 0.9989905 0.9109491 0.9969515 0.9989905 1.0000000 mod<-glm(class~.,data=dat,family=binomial()) #model vif(mod) #massively high OUTPUT: x V2 V3 V4 319.573 204655.833 415308.187 45042.675
更新:
我聯繫了 Harrell 博士,他是 R(和其他人)中 Hmisc 包的作者,他回答說,只要算法收斂(例如邏輯回歸)並且標準誤差沒有爆炸(正如 Maarten 在下面所說) - 並且該模型擬合得很好,最好在測試集上顯示,那麼這種共線性就沒有問題。
此外,他說(這齣現在他出色的回歸建模策略一書的第 65 頁)以代數方式構造的變量之間的共線性(如受限三次樣條)不是問題,因為多重共線性僅在共線性從樣本到樣本發生變化時才重要。
在估計這樣的函數時,多重共線性會導致數值問題。這就是為什麼有些人使用B 樣條(或該主題的變體)而不是受限三次樣條。因此,我傾向於將受限三次樣條曲線視為較大工具箱中的一種潛在有用工具。