R

了解具有分類值的多元線性回歸中的截距值

  • July 27, 2012

我無法理解具有分類值的多元線性回歸中截距值的值。以“warpbreaks”數據集為例,當我這樣做時:

> lm(breaks ~ wool, data=warpbreaks)

Call:
lm(formula = breaks ~ wool, data = warpbreaks)

Coefficients:
(Intercept)        woolB
    31.037       -5.778

我能夠理解,當羊毛等於“A”時,截距的值是斷裂的平均值,並且將“woolB”係數與截距值相加,我得到羊毛等於“B”時的斷裂平均值. 但是,如果我還考慮模型中的張力變量,我無法弄清楚截距值的含義:

> lm(breaks ~ wool + tension, data=warpbreaks)

Call:
lm(formula = breaks ~ wool + tension, data = warpbreaks)

Coefficients:
(Intercept)        woolB     tensionM     tensionH
    39.278       -5.778      -10.000      -14.722

我認為當羊毛等於“A”或張力等於“L”時,這將是斷裂的平均值,但對於這個數據集來說,情況並非如此。

關於解釋攔截值的任何線索?

與直覺相反,這不是breakswhenwool=="A"和的平均值tension=="L"

data(warpbreaks)
aggregate(breaks ~ wool + tension, warpbreaks, mean)
# wool tension breaks
# 1 A L 44.55556
# 2 B L 28.22222
# 3 A M 24.00000
# 4 B M 28.77778
# 5 A H 24.55556
# 6 B H 18.77778

正如@Macro 在他的評論中解釋的那樣,這在很大程度上取決於您適合的模型。如果您擬合完整模型(帶有交互項),您將得到以下結果:

lm(breaks ~ wool * tension, data=warpbreaks)
#
# Call:
# lm(formula = breaks ~ wool * tension, data = warpbreaks)
# 
# Coefficients:
# (Intercept) woolB tensionM tensionH woolB:tensionM
# 44.56 -16.33 -20.56 -20.00 21.11
# woolB:tensionH 
# 10.56

現在截距是breakswhenwool=="A"和的平均值tension=="L"

這是因為在完整模型中,每個案例有一個參數(您可以檢查總共 6 個參數),而在加法模型中,參數少於案例(總共 4 個參數)。

即使截距不是平均值,請注意when和 when的平均值之間的差異等於參數breaks``wool=="B"``wool=="A"``woolB

aggregate(breaks ~ wool, data=warpbreaks, mean)
# wool breaks
# 1 A 31.03704
# 2 B 25.25926
25.25926 - 31.03704
# [1] -5.77778

同樣,您可以檢查同樣適用於tension.

aggregate(breaks ~ tension, data=warpbreaks, mean)
# tension breaks
# 1 L 36.38889
# 2 M 26.38889
# 3 H 21.66667
26.38889 - 36.38889
# [1] -10
21.66667 - 36.38889
# [1] -14.72222

總之,當您擬合加性模型(無交互項)時,參數是每個類別(只有一個因子)的平均值之差,截距是每個因子的第一個模態的響應變量的估計值****可加性的假設

如果加性不成立,這個估計可能不合理。您可以通過測試交互項的無效性來了解這個假設是否合理。

anova(lm(breaks ~ wool*tension, data=warpbreaks))
# Analysis of Variance Table
# 
# Response: breaks
# Df Sum Sq Mean Sq F value Pr(>F)
# wool 1 450.7 450.67 3.7653 0.0582130 .
# tension 2 2034.3 1017.13 8.4980 0.0006926 ***
# wool:tension 2 1002.8 501.39 4.1891 0.0210442 *
# Residuals 48 5745.1 119.69
# ---
# Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1

如您所見,檢驗的 p 值為 0.021,這意味著交互項可能無法忽略,加性模型的截距估計可能沒有意義。

引用自:https://stats.stackexchange.com/questions/33174

comments powered by Disqus