Bayesian

Fisher信息是什麼信息?

  • February 14, 2016

假設我們有一個隨機變量 $ X \sim f(x|\theta) $ . 如果 $ \theta_0 $ 是真實參數,似然函數應該被最大化並且導數等於零。這是最大似然估計背後的基本原理。

據我了解,Fisher 信息定義為

$$ I(\theta) = \Bbb E \Bigg[\left(\frac{\partial}{\partial \theta}f(X|\theta)\right)^2\Bigg ] $$

因此,如果 $ \theta_0 $ 是真正的參數, $ I(\theta) = 0 $ . 但如果它 $ \theta_0 $ 不是真正的參數,那麼我們會有更多的Fisher信息。

我的問題

  1. Fisher 信息是否衡量給定 MLE 的“誤差”?換句話說,Fisher 正信息的存在是否意味著我的 MLE 不理想?
  2. 這個“信息”的定義與香農使用的定義有何不同?為什麼我們稱它為信息?

試圖補充其他答案……費舍爾信息是什麼信息?從對數似然函數開始 $$ \ell (\theta) = \log f(x;\theta) $$ 作為一個函數 $ \theta $ 為了 $ \theta \in \Theta $ ,參數空間。假設一些我們在這裡沒有討論的規律性條件,我們有 $ \DeclareMathOperator{\E}{\mathbb{E}} \E \frac{\partial}{\partial \theta} \ell (\theta) = \E_\theta \dot{\ell}(\theta) = 0 $ (我們將把參數的導數寫成這裡的點)。方差是Fisher信息 $$ I(\theta) = \E_\theta ( \dot{\ell}(\theta) )^2= -\E_\theta \ddot{\ell}(\theta) $$ 最後一個公式表明它是對數似然函數的(負)曲率。人們經常發現最大似然估計量 (mle) $ \theta $ 通過求解似然方程 $ \dot{\ell}(\theta)=0 $ 當 Fisher 信息作為分數的方差時 $ \dot{\ell}(\theta) $ 大,則該方程的解對數據非常敏感,從而為 mle 的高精度提供了希望。至少漸近地證實了這一點,mle 的漸近方差是 Fisher 信息的倒數。

我們如何解釋這一點? $ \ell(\theta) $ 是關於參數的似然信息 $ \theta $ 從樣本中。這實際上只能在相對意義上進行解釋,例如當我們使用它通過似然比檢驗比較兩個不同的可能參數值的似然性時 $ \ell(\theta_0) - \ell(\theta_1) $ . 對數似然的變化率是得分函數 $ \dot{\ell}(\theta) $ 告訴我們可能性變化的速度及其方差 $ I(\theta) $ 在給定的參數值下,每個樣本的差異有多大,比如說 $ \theta_0 $ . 方程(這真的很令人驚訝!) $$ I(\theta) = - \E_\theta \ddot{\ell}(\theta) $$ 告訴我們對於給定的參數值,信息的可變性(可能性)之間存在關係(等式), $ \theta_0 $ ,以及該參數值的似然函數曲率。這是統計量的可變性(方差)之間的驚人關係 $ \dot{\ell}(\theta) \mid_{\theta=\theta_0} $ 以及當我們改變參數時預期的可能性變化 $ \theta $ 在某個區間內 $ \theta_0 $ (對於相同的數據)。這真是既奇怪又驚喜又強大!

那麼什麼是似然函數呢?我們通常想到的統計模型 $ { f(x;\theta), \theta \in \Theta } $ 作為數據的概率分佈族 $ x $ , 由參數索引 $ \theta $ 參數空間中的一些元素 $ \Theta $ . 如果存在一些價值,我們認為這個模型是正確的 $ \theta_0 \in \Theta $ 這樣數據 $ x $ 實際上有概率分佈 $ f(x;\theta_0) $ . 所以我們通過嵌入真實的數據生成概率分佈得到一個統計模型 $ f(x;\theta_0) $ 在概率分佈族中。但是,很明顯,這樣的嵌入可以通過許多不同的方式完成,並且每個這樣的嵌入都是一個“真實的”模型,並且它們將給出不同的似然函數。而且,如果沒有這樣的嵌入,就沒有似然函數。看來我們確實需要一些幫助,一些關於如何明智地選擇嵌入的原則!

那麼這是什麼意思?這意味著似然函數的選擇告訴我們,如果事實發生了一點變化,我們會期望數據如何變化。但是,這並不能真正通過數據來驗證,因為數據僅提供有關真實模型功能的信息 $ f(x;\theta_0) $ 它實際上生成了數據,而不是關於所選模型中的所有其他元素。通過這種方式,我們看到似然函數的選擇類似於貝葉斯分析中的先驗選擇,它將非數據信息注入到分析中。讓我們用一個簡單的(有點人為的)例子來看看這個,看看嵌入的效果 $ f(x;\theta_0) $ 以不同的方式在模型中。

讓我們假設 $ X_1, \dotsc, X_n $ 是獨立同居的 $ N(\mu=10, \sigma^2=1) $ . 所以,這才是真正的數據生成分佈。現在,讓我們以兩種不同的方式將其嵌入模型中,模型 A 和模型 B。 $$ A \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \sigma^2=1),\mu \in \mathbb{R} \ B \colon X_1, \dotsc, X_n ~\text{iid}~N(\mu, \mu/10), \mu>0 $$ 你可以檢查這是否符合 $ \mu=10 $ .

對數似然函數變為 $$ \ell_A(\mu) = -\frac{n}{2} \log (2\pi) -\frac12\sum_i (x_i-\mu)^2 \ \ell_B(\mu) = -\frac{n}{2} \log (2\pi) - \frac{n}{2}\log(\mu/10) - \frac{10}{2}\sum_i \frac{(x_i-\mu)^2}{\mu} $$

得分函數:(對數似然導數): $$ \dot{\ell}_A(\mu) = n (\bar{x}-\mu) \ \dot{\ell}_B(\mu) = -\frac{n}{2\mu}- \frac{10}{2}\sum_i (\frac{x_i}{\mu})^2 - 15 n $$ 和曲率 $$ \ddot{\ell}_A(\mu) = -n \ \ddot{\ell}_B(\mu) = \frac{n}{2\mu^2} + \frac{10}{2}\sum_i \frac{2 x_i^2}{\mu^3} $$ 因此,Fisher 信息確實取決於嵌入。現在,我們計算真實值的Fisher信息 $ \mu=10 $ , $$ I_A(\mu=10) = n, \ I_B(\mu=10) = n \cdot (\frac1{200}+\frac{2020}{2000}) > n $$ 所以模型 B 中關於參數的 Fisher 信息要大一些。

這說明,在某種意義上,Fisher 信息告訴我們,如果控制參數以嵌入模型族所假設的方式發生****變化,則來自有關參數的數據的信息會以多快的速度發生變化。模型 B 中更高信息的解釋是,我們的模型族 B 假設如果期望增加,那麼方差也會增加。因此,在模型 B 下,樣本方差也將攜帶關於 $ \mu $ , 在模型 A 下它不會這樣做。

此外,這個例子說明我們確實需要一些理論來幫助我們構建模型族。

引用自:https://stats.stackexchange.com/questions/196576

comments powered by Disqus