Centering

當還包括與這些變量的交互時,如何包括線性和二次項?

  • October 12, 2013

在添加具有分類預測變量及其交互作用的數字預測變量時,通常認為有必要事先將變量居中於 0。原因是主要影響很難解釋,因為它們是用數字預測器在 0 進行評估的。

我現在的問題是,如果一個不僅包括原始數字變量(作為線性項)而且還包括該變量的二次項,如何居中?在這裡,需要兩種不同的方法:

  1. **將兩個變量集中在它們各自的平均值上。**不幸的是,考慮到原始變量,這兩個變量的 0 現在處於不同的位置。
  2. 將兩個變量集中在原始變量的平均值上(即,從線性項的原始變量中減去平均值,並從二次項中減去原始變量的平均值的平方)。使用這種方法,0 將代表原始變量的相同值,但二次變量不會以 0 為中心(即,變量的平均值不會為 0)。

考慮到居中的原因,我認為方法 2 似乎是合理的。但是,我找不到任何關於它的信息(也沒有在相關問題中:ab)。

或者在模型中包含線性和二次項以及它們與其他變量的交互通常是一個壞主意?

當包括多項式和它們之間的相互作用時,多重共線性可能是一個大問題。一種方法是查看正交多項式。

通常,正交多項式是關於某些內積正交的多項式族。

因此,例如,在具有權重函數的某些區域上的多項式的情況下,內積為- 正交性使內積 除非.

連續多項式最簡單的例子是勒讓德多項式,它在有限實數區間(通常在).

在我們的例子中,空間(觀察本身)是離散的,我們的權重函數也是常數(通常),所以正交多項式是勒讓德多項式的一種離散等價。將常數包含在我們的預測變量中,內積很簡單.

例如,考慮

從常數列開始,. 下一個多項式的形式為,但我們目前並不擔心規模,所以. 下一個多項式的形式為; 事實證明與前兩個正交:

x         p0  p1  p2   
1          1  -2   2   
2          1  -1  -1
3          1   0  -2
4          1   1  -1
5          1   2   2

通常,基也被歸一化(產生一個正交族)——也就是說,每個項的平方和被設置為某個常數(例如,, 或者,因此標準差為 1,或者可能是最常見的).

對一組多項式預測變量進行正交化的方法包括 Gram-Schmidt 正交化和 Cholesky 分解,儘管還有許多其他方法。


正交多項式的一些優點:

  1. 多重共線性不是問題——這些預測變量都是正交的。

  2. 低階係數不會隨著您添加項而改變。如果你適合一個學位通過正交多項式的多項式,您無需重新擬合即可知道所有低階多項式的擬合係數。


R中的示例(cars數據,停車距離與速度): 在此處輸入圖像描述

在這裡,我們考慮二次模型可能適用的可能性:

R 使用該poly函數來設置正交多項式預測器:

> p <- model.matrix(dist~poly(speed,2),cars)
> cbind(head(cars),head(p))
 speed dist (Intercept) poly(speed, 2)1 poly(speed, 2)2
1     4    2           1      -0.3079956      0.41625480
2     4   10           1      -0.3079956      0.41625480
3     7    4           1      -0.2269442      0.16583013
4     7   22           1      -0.2269442      0.16583013
5     8   16           1      -0.1999270      0.09974267
6     9   10           1      -0.1729098      0.04234892

它們是正交的:

> round(crossprod(p),9)
               (Intercept) poly(speed, 2)1 poly(speed, 2)2
(Intercept)              50               0               0
poly(speed, 2)1           0               1               0
poly(speed, 2)2           0               0               1

這是多項式的圖: 在此處輸入圖像描述

這是線性模型輸出:

> summary(carsp)

Call:
lm(formula = dist ~ poly(speed, 2), data = cars)

Residuals:
   Min      1Q  Median      3Q     Max 
-28.720  -9.184  -3.188   4.628  45.152 

Coefficients:
               Estimate Std. Error t value Pr(>|t|)    
(Intercept)       42.980      2.146  20.026  < 2e-16 ***
poly(speed, 2)1  145.552     15.176   9.591 1.21e-12 ***
poly(speed, 2)2   22.996     15.176   1.515    0.136    
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 15.18 on 47 degrees of freedom
Multiple R-squared:  0.6673,    Adjusted R-squared:  0.6532 
F-statistic: 47.14 on 2 and 47 DF,  p-value: 5.852e-12

這是二次擬合的圖: 在此處輸入圖像描述

引用自:https://stats.stackexchange.com/questions/72626

comments powered by Disqus