從 log y 預測 y 作為因變量
在 Wooldridge 所著的 Introductory Econometrics 一書中,該章涉及預測 ˆy (第 5 版第 6.4 章)陳述如下:
如果估計的模型是:
^log(y)=^β0+^β1x1+…+^βkxk
然後
ˆy=exp(ˆσ22)exp(^log(y))
在哪裡 ˆσ2 是的無偏估計量 σ2.
有人可以解釋為什麼會這樣以及為什麼我們不能簡單地採取 ˆy=exp(^log(y))
基礎模型是
E[logY]=β0+β1x1+⋯+βkxk
或者,就錯誤而言 εi,
logYi=β0+β1x1i+⋯+βkxki+εi.
*當我們假設條件分佈 logY 是正常的,*那麼普通最小二乘法 (OLS) 估計 logY 也是正常的,因為估計是誤差的仿射線性組合。認為 σ2 是它的真實(但未知)方差。然後
E[Y]=eσ2/2eE[logY].
(這是對數正態分佈的一個易於計算的屬性:例如,參見Wikipedia。)
伍德里奇插入了估計 σ2 和 E[logY] 進入這個公式。 因此,它可以看作是一種矩估計的方法 E[Y].
雖然直覺上是合理的,但這個估計器不一定是最好的,甚至不一定是好的。例如,它是有偏見的:請參閱https://stats.stackexchange.com/a/105734/919以獲取無偏見版本的討論和推導。它的主要缺陷是對估計的精度極度敏感 ˆσ2: 要可靠地使用它,您需要大量數據或 σ2 要非常小。
鑑於此,您確實可以考慮使用估算值
ˆY=exp(^E[logY]).
這估計了條件響應的幾何平均值(基本上通過幾何平均值的定義)。在某些應用中,它可能是更好的選擇。畢竟,當您使用 OLS 擬合數據的對數時,您低估了 Y 與高估相比,表明您確實不希望準確估計 E[Y] 本身。如果你這樣做了,你就會擬合非線性最小二乘模型
E[Y]=exp(α0+α1x1+⋯+αkxk).
如果你想表達錯誤術語 δi 明確地,這相當於
Yi=eα0,(ex1i)α1,⋯,(exki)αk+δi.
將其與指數進行比較是有啟發性的 (∗) 斷言
Yi=eβ0,(ex1i)β1,⋯,(exki)βk,eεi.
在哪裡 $ () $ 假設乘法錯誤 ⋅eεi, (∗∗) 假設附加錯誤* +δi. 這是兩個模型之間的基本區別。 (並且,因此, αj 不等於對應的 βj 他們的估計也經常會有所不同。)