Regression

為什麼我們不能使用R2R2R^2因變量的變換?

  • May 14, 2017

想像一下,我們有一個帶有因變量的線性回歸模型. 我們發現它. 現在,我們再做一次回歸,但這次是,並類似地找到它的. 有人告訴我,我不能比較兩者看看哪個模型更適合。這是為什麼?給我的原因是我們將比較不同數量(不同因變量)的可變性。我不確定這應該是一個充分的理由。

還有一種方法可以將其正式化嗎?

任何幫助,將不勝感激。

這是一個很好的問題,因為“不同的數量”似乎並不能解釋太多。

謹慎使用有兩個重要原因 $ R^2 $ 比較這些模型:它太粗糙了(它並沒有真正評估擬合優度),並且至少不適合其中一個模型。該答复解決了第二個問題。


理論處理

$ R^2 $ 將模型殘差的方差與響應的方差進行比較。方差是與擬合的均方加性偏差。這樣,我們可以理解 $ R^2 $ 比較兩種響應模型 $ y $ .

“基礎”模型

$$ y_i = \mu + \delta_i\tag{1} $$

在哪裡 $ \mu $ 是一個參數(理論平均響應)和 $ \delta_i $ 是獨立的隨機“錯誤”,每個均值為零,共同方差為 $ \tau^2 $ .

線性回歸模型引入了向量 $ x_i $ 作為解釋變量:

$$ y_i = \beta_0 + x_i \beta + \varepsilon_i.\tag{2} $$

號碼 $ \beta_0 $ 和向量 $ \beta $ 是參數(截距和“斜率”)。這 $ \varepsilon_i $ 又是獨立的隨機誤差,每個誤差都為零均值和共同方差 $ \sigma^2 $ .

$ R^2 $ 估計方差的減少, $ \tau^2-\sigma^2 $ ,與原始方差相比 $ \tau^2 $ .

當您取對數並使用最小二乘法擬合模型時,您隱含地比較了以下形式的關係。

$$ \log(y_i) = \nu + \zeta_i\tag{1a} $$

到其中一種形式

$$ \log(y_i) = \gamma_0 + x_i\gamma + \eta_i.\tag{2a} $$

這些就像模型 $ (1) $ 和 $ (2) $ 但有日誌響應。但是,它們並不等同於前兩個模型。例如,對兩邊取冪 $ (2\text{a}) $ 會給

$$ y_i = \exp(\log(y_i)) = \exp(\gamma_0 + x_i\gamma)\exp(\eta_i). $$

錯誤條款 $ \exp(\eta_i) $ 現在乘以底層關係 $ y_i = \exp(\gamma_0 + x_i\gamma) $ . 因此,響應的方差是

$$ \operatorname{Var}(y_i) = \exp(\gamma_0 + x_i\gamma)^2\operatorname{Var}(e^{\eta_i}). $$

方差取決於 $ x_i $ . 那不是模特 $ (2) $ , 假設方差都等於一個常數 $ \sigma^2 $ .

通常,這些模型中只有一個模型可以是對數據的合理描述。 應用第二組 $ (1\text{a}) $ 和 $ (2\text{a}) $ 當第一組 $ (1) $ 和 $ (2) $ 是一個很好的模型,或者當第二個很好時第一個模型,相當於使用非線性的異方差數據集,因此它應該與線性回歸擬合不佳。當出現這兩種情況中的任何一種時,我們可能會期望更好的模型表現出更大的 $ R^2 $ . 但是,如果兩者都不是呢?我們還能期待更大的 $ R^2 $ 幫助我們確定更好的模型?

分析

從某種意義上說,這不是一個好問題,因為如果兩個模型都不合適,我們應該找到第三種模型。然而,擺在我們面前的問題涉及 $ R^2 $ 幫助我們做出這個決定。而且,很多人首先想到的是關係的形狀 $ x $ 和 $ y $ ——是線性的,是對數的,還是其他的——不關心回歸誤差的特徵 $ \varepsilon_i $ 或者 $ \eta_i $ . 因此,讓我們考慮這樣一種情況,即我們的模型得到了正確的關係,但其錯誤結構是錯誤的,反之亦然

這樣的模型(通常發生)是指數關係的最小二乘擬合,

$$ y_i = \exp\left(\alpha_0 + x_i\alpha\right) + \theta_i.\tag{3} $$

現在的對數 $ y $ 是一個線性函數 $ x $ ,如 $ (2\text{a}) $ ,但誤差項 $ \theta_i $ 是相加的,如 $ (2) $ . 在這種情況下 $ R^2 $ 可能會誤導我們選擇具有錯誤關係的模型 $ x $ 和 $ y $ .

這是模型的插圖 $ (3) $ . 有 $ 300 $ 觀察結果 $ x_i $ (一個 1 向量均勻分佈在 $ 1.0 $ 和 $ 1.6 $ )。左側面板顯示原始 $ (x,y) $ 數據,而右側面板顯示 $ (x,\log(y)) $ 轉換後的數據。紅色虛線描繪了真正的潛在關係,而藍色實線顯示了最小二乘擬合。兩個面板中的數據和真實關係相同:只有模型及其擬合不同。

散點圖

右邊的對數響應的擬合顯然很好:它幾乎與真實關係重合,並且兩者都是線性的。與左側原始響應的擬合顯然更差:它是線性的,而真正的關係是指數的。不幸的是,它的值明顯更大 $ R^2 $ : $ 0.70 $ 相比 $ 0.56 $ . 這就是為什麼我們不應該相信 $ R^2 $ 引導我們走向更好的模型。這就是為什麼我們不應該滿足於合身,即使 $ R^2 $ 是“高”(在許多應用中,一個值 $ 0.70 $ 確實會被認為很高)。


順便說一句,評估這些模型的更好方法包括擬合優度檢驗(這將表明右側對數模型的優越性)和殘差平穩性的診斷圖(這將突出兩個模型的問題)。這樣的評估自然會導致一個加權最小二乘擬合 $ \log(y) $ 或直接建模 $ (3) $ 本身,必須使用最大似然法或非線性最小二乘法進行擬合。

引用自:https://stats.stackexchange.com/questions/279445

comments powered by Disqus