Maximum-Likelihood

關於 Fisher 信息矩陣以及與 Hessian 和標準誤差的關係的基本問題

  • August 22, 2013

好的,這是一個非常基本的問題,但我有點困惑。在我的論文中,我寫道:

可以通過計算(觀察到的)Fisher 信息矩陣的對角元素的平方根的倒數來找到標準誤差:

由於 R 中的優化命令最小化(觀察到的)Fisher 信息矩陣可以通過計算 Hessian 的逆矩陣來找到:

我的主要問題是:我所說的是否正確

我有點困惑,因為在第 7 頁的這個來源中它說:

信息矩陣是 Hessian 矩陣期望值的負數

(所以沒有 Hessian 的倒數。)

而在第 7 頁(腳註 5)的此來源中,它說:

觀察到的 Fisher 信息等於.

(所以這是相反的。)

我知道減號以及何時使用它以及何時不使用它,但是為什麼取反有區別?

Yudi Pawitan 在他的書In All Likelihood中寫道,在最大似然估計 (MLE) 處評估的對數似然的二階導數是觀察到的 Fisher 信息(另請參見本文檔,第 1 頁)。這正是大多數優化算法所喜歡optimR回報:在 MLE 上評估的 Hessian。當對數似然最小化,則返回負 Hessian。正如您正確指出的那樣,MLE 的估計標準誤差是觀察到的 Fisher 信息矩陣的逆對角元素的平方根。換句話說: Hessian 的逆(或負 Hessian)的對角元素的平方根是估計的標準誤差。

概括

  • 在 MLE 評估的負 Hessian 與在 MLE 評估的觀察到的 Fisher 信息矩陣相同。
  • 關於您的主要問題:不,通過反轉(負)Hessian 可以找到觀察到的 Fisher 信息是不正確的。
  • 關於你的第二個問題:(負)Hessian 的逆是漸近協方差矩陣的估計量。因此,協方差矩陣的對角元素的平方根是標準誤差的估計量。
  • 我認為您鏈接到的第二個文檔弄錯了。

正式地

讓 $ l(\theta) $ 是一個對數似然函數。Fisher信息矩陣 $ \mathbf{I}(\theta) $ 是對稱的 $ (p\times p) $ 包含條目的矩陣: $$ \mathbf{I}(\theta)=-\frac{\partial^{2}}{\partial\theta_{i}\partial\theta_{j}}l(\theta),~~~~ 1\leq i, j\leq p $$觀察到 的Fisher 信息矩陣很簡單 $ \mathbf{I}(\hat{\theta}{\mathrm{ML}}) $ ,以最大似然估計 (MLE) 評估的信息矩陣。Hessian 定義為: $$ \mathbf{H}(\theta)=\frac{\partial^{2}}{\partial\theta{i}\partial\theta_{j}}l(\theta),~~~~ 1\leq i, j\leq p $$ 它只是似然函數關於參數的二階導數矩陣。因此,如果您最小化對數似然,則返回的 Hessian 等效於觀察到的 Fisher 信息矩陣,而在最大化對數似然的情況下,Hessian 是觀察到的信息矩陣。

此外,Fisher 信息矩陣的逆矩陣是漸近協方差矩陣的估計量: $$ \mathrm{Var}(\hat{\theta}{\mathrm{ML}})=[\mathbf{I}(\hat{\theta}{\mathrm{ML}})]^{-1} $$ 標準誤差是協方差矩陣的對角元素的平方根。對於最大似然估計的漸近分佈,我們可以寫 $$ \hat{\theta}{\mathrm{ML}}\stackrel{a}{\sim}\mathcal{N}\left(\theta{0}, [\mathbf{I}(\hat{\theta}{\mathrm{ML}})]^{-1}\right) $$ 在哪裡 $ \theta{0} $ 表示真正的參數值。因此,最大似然估計的估計標準誤差由下式給出: $$ \mathrm{SE}(\hat{\theta}{\mathrm{ML}})=\frac{1}{\sqrt{\mathbf{I}(\hat{\theta}{\mathrm{ML}})}} $$

引用自:https://stats.stackexchange.com/questions/68080

comments powered by Disqus