Regression
當僅對預測變量進行縮放時,縮放回歸係數的解釋是什麼?
我正在運行一個具有 2 個連續預測變量 (x1, x2) 和 1 個連續結果變量 (y) 的模型。結果表明,兩個斜率和截距都顯著,沒有顯著的交互作用。假設我的結果是這樣的:
(intercept): 216.00 x1: -12.00 x2: -8.00
現在,為了便於解釋,我決定將它們標準化。所以我使用了這個
scale()
函數,我的模型現在有這樣的形式:model.s <- lm(scale(y)~scale(x1)*scale(x2))
這些結果:
(intercept): -0.0123 # It's not significant anymore x1: -2.3 x2: -1.2
我的問題是:
- 為什麼攔截失去了意義,如果這是正常的,
- 我已經縮放了所有 3 個變量,這有什麼問題嗎?
- 如何解釋縮放模型中的截距?
關於最後一個,我的解釋是:
- 當x1處於均值 (x1) 且x2處於均值 (x2) 時,y 與均值相差 0.0123 個標準差。
- 當x1上升 1SD 且x2處於平均值 (x2) 時,y 下降 -2.3SDs
- 當x2上升 1SD 且x1處於均值 (x1) 時,y 減少 -1.2SDs
使用標準化的預測變量,而不是結果變量:
model.s1 <- lm(y~scale(x1)*scale(x2))
結果有些不同,似乎顯著性返回到截距並且值發生了變化:
(intercept): 98 x1: -20 x2: -17
我對這些結果的解釋是:
- 當x1處於均值 (x1) 且x2處於均值 (x2) 時,y 為 98
- 當x1上升 1SD 且x2處於均值 (x2) 時,y 減少 -20 個單位
- 當x2上升 1SD 且x1處於均值 (x1) 時,y 減少 -17 個單位
換句話說,我用 SD 術語解釋x1和x2,而我用單位解釋y。這種解釋是錯誤的嗎?
這裡回答了 R 中比例函數的作用。基本上,它都將平均值重新縮放為零,標準偏差重新縮放為 1。有幾點值得注意
1)如果原始變量不是正態分佈(ND),縮放變量也不會是ND。相反,如果原始變量是 ND,則重新調整的分佈將是 ND。
2)如果原始平均值不為零,則使用縮放值的回歸顯然與未縮放的原始值具有不同的截距。
3)如果原始變量關於它們的均值對稱分佈(並且如果均值是位置的良好度量),則縮放的、以零為中心的新變量回歸的截距應該為零(即使在乘積中),但是只有當一切(’s) 被重新調整。
- 縮放是什麼意思?好吧,就其本身而言,並不多。為了解釋縮放的結果,人們必須知道從什麼開始的均值和標準差。基本上,它什麼也沒增加,甚至可能通過引入可變性使事情複雜化(想想在-軸)的自變量。
5)最後,做相對未縮放和縮放回歸模型的相關性並比較相關係數。如果回歸問題沒有改變,那將沒有區別。
也就是說,你正在做的是線性變換。例如,
所以,只需乘以,收集常數項並添加到恢復最初的,其中初始, 和
當這是作為自變量的乘積而不是總和時,事情會變得更加混亂,因為那時有一個, 也和條款。那麼這取決於你的原始方程是什麼(你沒有提供)。如果原方程沒有單獨的, 也和項,那麼變換後的方程和原方程是兩個不同的回歸問題,不會有相同的-價值觀。