Standard-Error

當解析雅可比行列式可用時,通過以下方式近似 Hessian 矩陣是否更好?𝐽𝑇𝐽Ĵ噸ĴJ^TJ,還是通過雅可比行列式的有限差分?

  • September 26, 2013

假設我正在計算一些模型參數以最小化殘差平方和,並且我假設我的錯誤是高斯的。我的模型產生解析導數,因此優化器不需要使用有限差分。擬合完成後,我想計算擬合參數的標準誤差。

通常,在這種情況下,誤差函數的 Hessian 被認為與協方差矩陣有關:

在哪裡是殘差的方差。 當沒有可用的誤差分析導數時,計算 Hessian 通常是不切實際的,因此被視為一個很好的近似值。

但是,就我而言,我有一個解析 J,因此通過有限差分 J 計算 H 對我來說相對便宜。

所以,我的問題是:使用我的精確 J 並應用上述近似值來近似 H 或通過有限差分 J 近似 H 會更準確嗎?

好問題。首先,回憶一下這個近似值來自。讓成為您的數據點,成為你的模特和成為模型的參數。那麼非線性最小二乘問題的目標函數為在哪裡是殘差的向量,. 目標函數的精確 Hessian 矩陣是. 所以這個近似值的誤差是. 當殘差本身很小時,這是一個很好的近似值;或者當殘差的二階導數很小時。線性最小二乘可以被認為是殘差的二階導數為零的特殊情況。

至於有限差分近似,它相對便宜。要計算中心差,您需要額外評估雅可比行列式次(遠期差價將花費您額外的評估,所以我不會打擾)。中心差分近似的誤差與和, 在哪裡是步長。最佳步長為, 在哪裡是機器精度。因此,除非殘差的導數爆炸,否則很明顯,有限差分近似應該更好。我應該指出,雖然計算量很小,但簿記卻很重要。Jacobian 上的每個有限差分將為每個殘差提供一行 Hessian。然後,您必須使用上面的公式重新組裝 Hessian。

然而,還有第三種選擇。如果您的求解器使用準牛頓法(DFP、BFGS、Bryoden 等),它已經在每次迭代中逼近 Hessian。近似值可能非常好,因為它使用每次迭代的目標函數和梯度值。大多數求解器都會讓您訪問最終的 Hessian 估計(或其逆估計)。如果這是您的選擇,我會將其用作 Hessian 估計值。它已經計算過了,可能會是一個很好的估計。

引用自:https://stats.stackexchange.com/questions/71154

comments powered by Disqus