Regression

附加變量圖(部分回歸圖)在多元回歸中解釋了什麼?

  • November 26, 2014

我有一個電影數據集的模型,我使用了回歸:

model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)

這給出了輸出:

在此處輸入圖像描述

現在我第一次嘗試了一個叫做“添加變量圖”的東西,我得到了以下輸出:

car::avPlots(model, id.n=2, id.cex=0.7)

添加了變量圖

問題是我試圖使用 google 理解添加變量圖,但我無法理解它的深度,看到圖我明白它是基於與輸出相關的每個輸入變量的偏斜表示。

我能否獲得更多細節,例如它如何證明數據規範化的合理性?

為了說明,我將採用一個不太複雜的回歸模型 $ Y = \beta_1 + \beta_2 X_2 + \beta_3 X_3 + \epsilon $ 其中預測變量 $ X_2 $ 和 $ X_3 $ 可能是相關的。讓我們說斜坡 $ \beta_2 $ 和 $ \beta_3 $ 都是積極的,所以我們可以說(i) $ Y $ 增加為 $ X_2 $ 增加,如果 $ X_3 $ 保持不變,因為 $ \beta_2 $ 是積極的;(二) $ Y $ 增加為 $ X_3 $ 增加,如果 $ X_2 $ 保持不變,因為 $ \beta_3 $ 是積極的。

請注意,通過考慮其他變量保持不變(“其他條件不變”)時會發生什麼來解釋多個回歸係數很重要。假設我剛剛退步 $ Y $ 反對 $ X_2 $ 有一個模型 $ Y = \beta_1' + \beta_2' X_2 + \epsilon' $ . 我對斜率係數的估計 $ \beta_2' $ , 它衡量對 $ Y $ 增加一個單位 $ X_2 $ 沒有持有 $ X_3 $ 常數,可能與我的估計不同 $ \beta_2 $ 從多元回歸 - 這也衡量了對 $ Y $ 增加一個單位 $ X_2 $ ,但它確實成立 $ X_3 $ 持續的。我的估計有問題 $ \hat{\beta_2'} $ 是它遭受遺漏變量偏差,如果 $ X_2 $ 和 $ X_3 $ 是相關的。

要理解為什麼,想像一下 $ X_2 $ 和 $ X_3 $ 是負相關的。現在當我增加 $ X_2 $ 通過一個單位,我知道平均值 $ Y $ 應該增加,因為 $ \beta_2 > 0 $ . 但是作為 $ X_2 $ 增加,如果我們不持有 $ X_3 $ 那麼恆定 $ X_3 $ 趨於減少,並且由於 $ \beta_3 > 0 $ 這將傾向於降低平均值 $ Y $ . 所以增加一個單位的整體效果 $ X_2 $ 如果我允許,會顯得更低 $ X_3 $ 也變化,因此 $ \beta_2' < \beta_2 $ . 事情越嚴重越嚴重 $ X_2 $ 和 $ X_3 $ 是相關的,影響越大 $ X_3 $ 通過 $ \beta_3 $ - 在非常嚴重的情況下,我們甚至可能會發現 $ \beta_2' < 0 $ 即使我們知道,在其他條件不變的情況下, $ X_2 $ 有積極的影響 $ Y $ !

希望您現在可以明白為什麼要繪製 $ Y $ 反對 $ X_2 $ 將是一個糟糕的方式來可視化之間的關係 $ Y $ 和 $ X_2 $ 在你的模型中。在我的示例中,您的眼睛會被吸引到最適合坡度的線 $ \hat{\beta_2'} $ 這並不反映 $ \hat{\beta_2} $ 從你的回歸模型。在最壞的情況下,您的模型可能會預測 $ Y $ 增加為 $ X_2 $ 增加(其他變量保持不變),但圖表上的點表明 $ Y $ 減少為 $ X_2 $ 增加。

問題是在簡單的圖表中 $ Y $ 反對 $ X_2 $ ,其他變量不保持不變。這是對添加變量圖(也稱為部分回歸圖)的好處的關鍵洞察——它使用 Frisch-Waugh-Lovell 定理來“部分排除”其他預測變量的影響。圖上的水平軸和垂直軸可能最容易理解為“ $ X_2 $ 在考慮了其他預測變量之後”和“ $ Y $ 在考慮了其他預測變量之後”。您現在可以查看兩者之間的關係 $ Y $ 和 $ X_2 $ 一旦考慮了所有其他預測變量。例如,您可以在每個圖中看到的斜率現在反映了原始多元回歸模型的偏回歸係數。

添加變量圖的許多價值來自回歸診斷階段,特別是因為添加變量圖中的殘差正是原始多元回歸的殘差。這意味著異常值和異方差可以通過與查看簡單回歸模型而不是多元回歸模型圖類似的方式來識別。還可以看到影響點 - 這在多元回歸中很有用,因為在考慮其他變量之前,一些影響點在原始數據中並不明顯。在我的示例中,一個中等大小的 $ X_2 $ 值可能不會在數據表中顯得格格不入,但如果 $ X_3 $ 儘管價值也很大 $ X_2 $ 和 $ X_3 $ 負相關,那麼這種組合很少見。“考慮其他預測變量”,即 $ X_2 $ value 異常大,並且會在您添加的變量圖上更加突出。

$ * $ 從技術上講,它們將是運行另外兩個多元回歸的殘差:回歸的殘差 $ Y $ 針對除 $ X_2 $ 在縱軸上,而回歸的殘差 $ X_2 $ 與所有其他預測變量相比,水平軸上。這真是傳說中的“ $ Y $ 給別人”和“ $ X_2 $ 給定其他人”告訴你。由於這兩個回歸的平均殘差為零,因此 ( $ X_2 $ 給別人, $ Y $ 給定其他人)將只是 (0, 0) 這解釋了為什麼添加的變量圖中的回歸線總是穿過原點。但是我經常發現提到軸只是其他回歸的殘差會使人們感到困惑(也許不足為奇,因為我們現在正在談論四種不同的回歸!)所以我試圖不去糾纏這個問題。將它們理解為“ $ X_2 $ 給別人”和“ $ Y $ 給別人”,你應該沒事。

引用自:https://stats.stackexchange.com/questions/125561

comments powered by Disqus