我怎樣才能使用的價值𝑅2R2R^2檢驗多元回歸分析中的線性假設?
下圖是回歸測試的殘差散點圖,其中“正態性”、“同方差性”和“獨立性”假設已經得到肯定滿足!為了測試*“線性”*假設,雖然通過查看圖表可以猜出關係是曲線的,但問題是:如何使用“R2 Linear”的值來測試線性假設?“R2 Linear”值的可接受範圍是多少,以確定關係是否為線性?當不滿足線性假設並且轉換 IV 也無濟於事時該怎麼辦?!
這是測試完整結果的鏈接。
散點圖:
請注意,您所說的線性假設僅表示給定是一個線性函數。您不能使用的值來檢驗這個假設。
這是因為僅僅是觀測值和預測值之間的平方相關,相關係數的值並不能唯一確定兩者之間的關係和(線性或其他)並且以下兩種情況都是可能的:
- 高的但是線性假設在一個重要方面仍然是錯誤的
- 低的但仍然滿足線性假設
我將依次討論:
(1) 高但是線性假設在一個重要方面仍然是錯誤的:這裡的技巧是操縱****相關性對異常值非常敏感的事實。假設你有預測器由標準正態的混合分佈生成時間和點質量在另一個和一個響應變量是
在哪裡和是一個正常數,遠大於,例如. 然後和將幾乎完全相關:
u = runif(1e4)>.99 x = rnorm(1e4) x[which(u==1)] = 1e5 y = rnorm(1e4) y[which(x==1e5)] = 1e5 cor(x,y) [1] 1
儘管事實上,期望值給定不是線性的 - 實際上它是一個不連續的階躍函數,並且甚至不依賴於除非當.
**(2) 低但線性假設仍然滿足:**這裡的技巧是使線性趨勢周圍的“噪音”量變大。假設你有一個預測器和回應和模型
是正確的模型。因此,條件均值給定是一個線性函數,所以滿足線性假設。如果相對於然後會很小。例如,
x = rnorm(200) y = 1 + 2*x + rnorm(200,sd=5) cor(x,y)^2 [1] 0.1125698
因此,評估線性假設不是看是否位於某個可容忍的範圍內,但更多的是檢查預測變量/預測值與響應之間的散點圖並做出(也許是主觀的)決定。
回复:當不滿足線性假設並且轉換 IV 也無濟於事時該怎麼辦?!
當非線性是一個問題時,查看殘差與每個預測變量的圖可能會有所幫助 - 如果有任何明顯的模式,這可能表明該預測變量存在非線性。例如,如果該圖揭示了殘差和預測變量之間的“碗形”關係,這可能表明該預測變量中缺少二次項。其他模式可能表示不同的功能形式。在某些情況下,可能是您沒有嘗試正確轉換,或者真實模型在變量的任何轉換版本中都不是線性的(儘管可能找到合理的近似值)。
**關於您的示例:**基於兩個不同因變量的預測與實際圖(原始帖子中的第一個和第三個圖),在我看來,線性假設對於這兩種情況都是成立的。在第一個情節中,看起來可能存在一些異方差性,但兩者之間的關係看起來確實非常線性。在第二個圖中,關係看起來是線性的,但關係的強度相當弱,如線周圍的大散點所示(即大的誤差方差) - 這就是為什麼你看到低.