Regression

為什麼我們不能使用R2R2R^2因變量的變換?

  • May 14, 2017

想像一下,我們有一個帶有因變量的線性回歸模型. 我們發現它. 現在,我們再做一次回歸,但這次是,並類似地找到它的. 有人告訴我,我不能比較兩者看看哪個模型更適合。這是為什麼?給我的原因是我們將比較不同數量(不同因變量)的可變性。我不確定這應該是一個充分的理由。

還有一種方法可以將其正式化嗎?

任何幫助,將不勝感激。

這是一個很好的問題,因為“不同的數量”似乎並不能解釋太多。

謹慎使用有兩個重要原因 R2 比較這些模型:它太粗糙了(它並沒有真正評估擬合優度),並且至少不適合其中一個模型。該答复解決了第二個問題。


理論處理

R2 將模型殘差的方差與響應的方差進行比較。方差是與擬合的均方加性偏差。這樣,我們可以理解 R2 比較兩種響應模型 y .

“基礎”模型

yi=μ+δi

在哪裡 μ 是一個參數(理論平均響應)和 δi 是獨立的隨機“錯誤”,每個均值為零,共同方差為 τ2 .

線性回歸模型引入了向量 xi 作為解釋變量:

yi=β0+xiβ+εi.

號碼 β0 和向量 β 是參數(截距和“斜率”)。這 εi 又是獨立的隨機誤差,每個誤差都為零均值和共同方差 σ2 .

R2 估計方差的減少, τ2σ2 ,與原始方差相比 τ2 .

當您取對數並使用最小二乘法擬合模型時,您隱含地比較了以下形式的關係。

log(yi)=ν+ζi

到其中一種形式

log(yi)=γ0+xiγ+ηi.

這些就像模型 (1)(2) 但有日誌響應。但是,它們並不等同於前兩個模型。例如,對兩邊取冪 (2a) 會給

yi=exp(log(yi))=exp(γ0+xiγ)exp(ηi).

錯誤條款 exp(ηi) 現在乘以底層關係 yi=exp(γ0+xiγ) . 因此,響應的方差是

Var(yi)=exp(γ0+xiγ)2Var(eηi).

方差取決於 xi . 那不是模特 (2) , 假設方差都等於一個常數 σ2 .

通常,這些模型中只有一個模型可以是對數據的合理描述。 應用第二組 (1a)(2a) 當第一組 (1)(2) 是一個很好的模型,或者當第二個很好時第一個模型,相當於使用非線性的異方差數據集,因此它應該與線性回歸擬合不佳。當出現這兩種情況中的任何一種時,我們可能會期望更好的模型表現出更大的 R2 . 但是,如果兩者都不是呢?我們還能期待更大的 R2 幫助我們確定更好的模型?

分析

從某種意義上說,這不是一個好問題,因為如果兩個模型都不合適,我們應該找到第三種模型。然而,擺在我們面前的問題涉及 R2 幫助我們做出這個決定。而且,很多人首先想到的是關係的形狀 xy ——是線性的,是對數的,還是其他的——不關心回歸誤差的特徵 εi 或者 ηi . 因此,讓我們考慮這樣一種情況,即我們的模型得到了正確的關係,但其錯誤結構是錯誤的,反之亦然

這樣的模型(通常發生)是指數關係的最小二乘擬合,

yi=exp(α0+xiα)+θi.

現在的對數 y 是一個線性函數 x ,如 (2a)但誤差項 θi 是相加的,如 (2) . 在這種情況下 R2 可能會誤導我們選擇具有錯誤關係的模型 xy .

這是模型的插圖 (3) . 有 300 觀察結果 xi (一個 1 向量均勻分佈在 1.01.6 )。左側面板顯示原始 (x,y) 數據,而右側面板顯示 (x,log(y)) 轉換後的數據。紅色虛線描繪了真正的潛在關係,而藍色實線顯示了最小二乘擬合。兩個面板中的數據和真實關係相同:只有模型及其擬合不同。

散點圖

右邊的對數響應的擬合顯然很好:它幾乎與真實關係重合,並且兩者都是線性的。與左側原始響應的擬合顯然更差:它是線性的,而真正的關係是指數的。不幸的是,它的值明顯更大 R2 : 0.70 相比 0.56 . 這就是為什麼我們不應該相信 R2 引導我們走向更好的模型。這就是為什麼我們不應該滿足於合身,即使 R2 是“高”(在許多應用中,一個值 0.70 確實會被認為很高)。


順便說一句,評估這些模型的更好方法包括擬合優度檢驗(這將表明右側對數模型的優越性)和殘差平穩性的診斷圖(這將突出兩個模型的問題)。這樣的評估自然會導致一個加權最小二乘擬合 log(y) 或直接建模 (3) 本身,必須使用最大似然法或非線性最小二乘法進行擬合。

引用自:https://stats.stackexchange.com/questions/279445