Regression

從 log y 預測 y 作為因變量

  • December 13, 2019

在 Wooldridge 所著的 Introductory Econometrics 一書中,該章涉及預測 ˆy (第 5 版第 6.4 章)陳述如下:

如果估計的模型是:

^log(y)=^β0+^β1x1++^βkxk

然後

ˆy=exp(ˆσ22)exp(^log(y))

在哪裡 ˆσ2 是的無偏估計量 σ2.

有人可以解釋為什麼會這樣以及為什麼我們不能簡單地採取 ˆy=exp(^log(y))

基礎模型是

E[logY]=β0+β1x1++βkxk

或者,就錯誤而言 εi,

logYi=β0+β1x1i++βkxki+εi.

*當我們假設條件分佈 logY 是正常的,*那麼普通最小二乘法 (OLS) 估計 logY 也是正常的,因為估計是誤差的仿射線性組合。認為 σ2 是它的真實(但未知)方差。然後

E[Y]=eσ2/2eE[logY].

(這是對數正態分佈的一個易於計算的屬性:例如,參見Wikipedia。)

伍德里奇插入了估計 σ2E[logY] 進入這個公式。 因此,它可以看作是一種矩估計的方法 E[Y].

雖然直覺上是合理的,但這個估計器不一定是最好的,甚至不一定是好的。例如,它是有偏見的:請參閱https://stats.stackexchange.com/a/105734/919以獲取無偏見版本的討論和推導。它的主要缺陷是對估計的精度極度敏感 ˆσ2: 要可靠地使用它,您需要大量數據或 σ2 要非常小。


鑑於此,您確實可以考慮使用估算值

ˆY=exp(^E[logY]).

這估計了條件響應的幾何平均值(基本上通過幾何平均值的定義)。在某些應用中,它可能是更好的選擇。畢竟,當您使用 OLS 擬合數據的對數時,您低估了 Y 與高估相比,表明您確實不希望準確估計 E[Y] 本身。如果你這樣做了,你就會擬合非線性最小二乘模型

E[Y]=exp(α0+α1x1++αkxk).

如果你想表達錯誤術語 δi 明確地,這相當於

Yi=eα0,(ex1i)α1,,(exki)αk+δi.

將其與指數進行比較是有啟發性的 () 斷言

Yi=eβ0,(ex1i)β1,,(exki)βk,eεi.

在哪裡 $ () $ 假設乘法錯誤 eεi, () 假設附加錯誤* +δi. 這是兩個模型之間的基本區別。 (並且,因此, αj 不等於對應的 βj 他們的估計也經常會有所不同。)

引用自:https://stats.stackexchange.com/questions/440695