Least-Squares
OLS 作為非線性函數的近似值
假設一個非線性回歸模型 E[y|x]=m(x,θ) y=m(x,θ)+ε,
和 ε:=y−m(x,θ) .我聽到有人這麼說
OLS 始終一致地估計在回歸量的期望值處評估的非線性條件期望函數的偏導數(偏導數)。
有人可以證明這個屬性嗎?
警告:這篇文章中聲稱的結果具有爭議的有效性(作者本人。當迷霧散去時,我會報告)
行。在這裡包含整個證明有點長,所以我只畫草圖:
圍繞一些最初的任意點應用一階泰勒展開, x0 ,
y=m(x0)+[x−x0]′∇m(x0,θ)+R1+ϵ.
在哪裡 R1 是泰勒餘數。放 b0=m(x0),;b=∇m(x0,θ),;β=(bo,b)′
˜x=x−x0,;u=R1+ϵ
並恢復為矩陣表示法y=˜Xβ+u.
所以 OLS 將嘗試估計的是條件期望函數的梯度,在某個點進行評估 x0 ,並且常數項將嘗試估計在該點評估的 CEF x0 .
OLS 將是
ˆβ=β+(˜X′˜X)−1˜X′u⟹ˆβ−β=(˜X′˜X)−1˜X′(ϵ+R1)
自從 ϵ 是通過構造條件期望函數誤差,在我們將剩下的極限
plim(ˆβ−β)=E(˜x˜x′)⋅E(˜x⋅R1)
現在, R1 將取決於選擇 x0 . 自從 R1 表示線性逼近的不准確,一個自然的想法是“什麼擴展中心最小化期望平方泰勒餘數 E(R21) ?”所以線性近似在模擬“均方誤差”的標準下被認為是“最佳”的,這是關於一般偏差的眾所周知且廣泛使用的最優性標準?
如果遵循這條路徑,就會發現該設置 x0=E(x) 最小化 E(R21) 如果CEF 的梯度是由 OLS 估計的。此外,人們發現在這種情況下, E(˜x⋅R1)=0 . 量子點
在實踐中實現這一點意味著將回歸變量集中在它們的樣本均值上,而使因變量不居中。