R
了解具有分類值的多元線性回歸中的截距值
我無法理解具有分類值的多元線性回歸中截距值的值。以“warpbreaks”數據集為例,當我這樣做時:
> lm(breaks ~ wool, data=warpbreaks) Call: lm(formula = breaks ~ wool, data = warpbreaks) Coefficients: (Intercept) woolB 31.037 -5.778
我能夠理解,當羊毛等於“A”時,截距的值是斷裂的平均值,並且將“woolB”係數與截距值相加,我得到羊毛等於“B”時的斷裂平均值. 但是,如果我還考慮模型中的張力變量,我無法弄清楚截距值的含義:
> lm(breaks ~ wool + tension, data=warpbreaks) Call: lm(formula = breaks ~ wool + tension, data = warpbreaks) Coefficients: (Intercept) woolB tensionM tensionH 39.278 -5.778 -10.000 -14.722
我認為當羊毛等於“A”或張力等於“L”時,這將是斷裂的平均值,但對於這個數據集來說,情況並非如此。
關於解釋攔截值的任何線索?
與直覺相反,這不是
breaks
whenwool=="A"
和的平均值tension=="L"
。data(warpbreaks) aggregate(breaks ~ wool + tension, warpbreaks, mean) # wool tension breaks # 1 A L 44.55556 # 2 B L 28.22222 # 3 A M 24.00000 # 4 B M 28.77778 # 5 A H 24.55556 # 6 B H 18.77778
正如@Macro 在他的評論中解釋的那樣,這在很大程度上取決於您適合的模型。如果您擬合完整模型(帶有交互項),您將得到以下結果:
lm(breaks ~ wool * tension, data=warpbreaks) # # Call: # lm(formula = breaks ~ wool * tension, data = warpbreaks) # # Coefficients: # (Intercept) woolB tensionM tensionH woolB:tensionM # 44.56 -16.33 -20.56 -20.00 21.11 # woolB:tensionH # 10.56
現在截距是
breaks
whenwool=="A"
和的平均值tension=="L"
。這是因為在完整模型中,每個案例有一個參數(您可以檢查總共 6 個參數),而在加法模型中,參數少於案例(總共 4 個參數)。
即使截距不是平均值,請注意when和 when的平均值之間的差異等於參數
breaks``wool=="B"``wool=="A"``woolB
aggregate(breaks ~ wool, data=warpbreaks, mean) # wool breaks # 1 A 31.03704 # 2 B 25.25926 25.25926 - 31.03704 # [1] -5.77778
同樣,您可以檢查同樣適用於
tension
.aggregate(breaks ~ tension, data=warpbreaks, mean) # tension breaks # 1 L 36.38889 # 2 M 26.38889 # 3 H 21.66667 26.38889 - 36.38889 # [1] -10 21.66667 - 36.38889 # [1] -14.72222
總之,當您擬合加性模型(無交互項)時,參數是每個類別(只有一個因子)的平均值之差,截距是每個因子的第一個模態下的響應變量的估計值****可加性的假設。
如果加性不成立,這個估計可能不合理。您可以通過測試交互項的無效性來了解這個假設是否合理。
anova(lm(breaks ~ wool*tension, data=warpbreaks)) # Analysis of Variance Table # # Response: breaks # Df Sum Sq Mean Sq F value Pr(>F) # wool 1 450.7 450.67 3.7653 0.0582130 . # tension 2 2034.3 1017.13 8.4980 0.0006926 *** # wool:tension 2 1002.8 501.39 4.1891 0.0210442 * # Residuals 48 5745.1 119.69 # --- # Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
如您所見,檢驗的 p 值為 0.021,這意味著交互項可能無法忽略,加性模型的截距估計可能沒有意義。