附加變量圖（部分回歸圖）在多元回歸中解釋了什麼？

November 26, 2014

我有一個電影數據集的模型，我使用了回歸：
model <- lm(imdbVotes ~ imdbRating + tomatoRating + tomatoUserReviews+ I(genre1 ** 3.0) +I(genre2 ** 2.0)+I(genre3 ** 1.0), data = movies)
library(ggplot2)
res <- qplot(fitted(model), resid(model))
res+geom_hline(yintercept=0)
這給出了輸出：

現在我第一次嘗試了一個叫做“添加變量圖”的東西，我得到了以下輸出：
car::avPlots(model, id.n=2, id.cex=0.7)
問題是我試圖使用 google 理解添加變量圖，但我無法理解它的深度，看到圖我明白它是基於與輸出相關的每個輸入變量的偏斜表示。

我能否獲得更多細節，例如它如何證明數據規範化的合理性？

為了說明，我將採用一個不太複雜的回歸模型其中預測變量和可能是相關的。讓我們說斜坡和都是積極的，所以我們可以說（i）增加為增加，如果保持不變，因為是積極的；(二) 增加為增加，如果保持不變，因為是積極的。

請注意，通過考慮其他變量保持不變（“其他條件不變”）時會發生什麼來解釋多個回歸係數很重要。假設我剛剛退步反對有一個模型 . 我對斜率係數的估計 , 它衡量對增加一個單位沒有持有常數，可能與我的估計不同從多元回歸 - 這也衡量了對增加一個單位，但它確實成立持續的。我的估計有問題是它遭受遺漏變量偏差，如果和是相關的。

要理解為什麼，想像一下和是負相關的。現在當我增加通過一個單位，我知道平均值應該增加，因為 . 但是作為增加，如果我們不持有那麼恆定趨於減少，並且由於這將傾向於降低平均值 . 所以增加一個單位的整體效果如果我允許，會顯得更低也變化，因此 . 事情越嚴重越嚴重和是相關的，影響越大通過 - 在非常嚴重的情況下，我們甚至可能會發現即使我們知道，在其他條件不變的情況下，有積極的影響 !

希望您現在可以明白為什麼要繪製反對將是一個糟糕的方式來可視化之間的關係和在你的模型中。在我的示例中，您的眼睛會被吸引到最適合坡度的線這並不反映從你的回歸模型。在最壞的情況下，您的模型可能會預測增加為增加（其他變量保持不變），但圖表上的點表明減少為增加。

問題是在簡單的圖表中反對，其他變量不保持不變。這是對添加變量圖（也稱為部分回歸圖）的好處的關鍵洞察——它使用 Frisch-Waugh-Lovell 定理來“部分排除”其他預測變量的影響。圖上的水平軸和垂直軸可能最容易理解為“ 在考慮了其他預測變量之後”和“ 在考慮了其他預測變量之後”。您現在可以查看兩者之間的關係和 一旦考慮了所有其他預測變量。例如，您可以在每個圖中看到的斜率現在反映了原始多元回歸模型的偏回歸係數。

添加變量圖的許多價值來自回歸診斷階段，特別是因為添加變量圖中的殘差正是原始多元回歸的殘差。這意味著異常值和異方差可以通過與查看簡單回歸模型而不是多元回歸模型圖類似的方式來識別。還可以看到影響點 - 這在多元回歸中很有用，因為在考慮其他變量之前，一些影響點在原始數據中並不明顯。在我的示例中，一個中等大小的值可能不會在數據表中顯得格格不入，但如果儘管價值也很大和負相關，那麼這種組合很少見。“考慮其他預測變量”，即 value 異常大，並且會在您添加的變量圖上更加突出。

從技術上講，它們將是運行另外兩個多元回歸的殘差：回歸的殘差針對除在縱軸上，而回歸的殘差與所有其他預測變量相比，水平軸上。這真是傳說中的“ 給別人”和“ 給定其他人”告訴你。由於這兩個回歸的平均殘差為零，因此 ( 給別人，給定其他人）將只是 (0, 0) 這解釋了為什麼添加的變量圖中的回歸線總是穿過原點。但是我經常發現提到軸只是其他回歸的殘差會使人們感到困惑（也許不足為奇，因為我們現在正在談論四種不同的回歸！）所以我試圖不去糾纏這個問題。將它們理解為“ 給別人”和“ 給別人”，你應該沒事。

引用自：https://stats.stackexchange.com/questions/125561

附加變量圖（部分回歸圖）在多元回歸中解釋了什麼？

相關問答

我已經在回歸中使用了我的整個數據集，我不應該將其用作預測模型嗎？

為什麼我們要匹配因果推理與回歸混雜因素？

統計學習要素中的圖 3.6 是否正確？

證明嶺回歸是嚴格凸的

確定兩個變量是線性還是非線性甚至不相關的最佳編程方法是什麼

為什麼隨機森林圖中有很多條線？