所有對數似然函數都可二次微分嗎?
對於最大似然估計,我們需要設置對數似然函數的一階導數等於 $ \mathbf{0} $ .
Hessian 矩陣的負期望值(二階導數)則稱為 Fisher 信息矩陣。
對數似然(概率密度)函數的定義是否有任何固有的東西,可以保證對數似然的兩倍微分?如果不是,我必須施加什麼條件來保證?
簡而言之:沒有。請注意,為了最大化對數似然,我們經常使用微分,但實際上要真正最大化一個函數,我們需要考慮幾種類型的點
- 靜止/轉折點(當 $ \frac{\partial \ell}{\partial \theta} = 0 $ )
- 奇異點(例如功能無法區分的地方)
- 端點 - 這僅適用於有限間隔 $ [a,b] $ ,可能與其中之一 $ a $ 要么 $ b $ 模數無窮大
當然,前提是感興趣的參數實際上是連續的。
讓我們考慮帶密度的拉普拉斯分佈
$$ p(x \mid \mu, b) = \frac{1}{2b} \exp \left{ -\frac{|x - \mu|}{b} \right} $$
那麼對數似然是,給定一個樣本 $ \mathbf{x} $ 大小的 $ n $
$$ \ell(\mu, b \mid \mathbf{x} ) = -n \log (2b) - \sum_{i=1}^n \frac{|x_i - \mu|}{b} $$
可以證明 $ \hat{b} = \frac{1}{n} \sum_{i=1}^n |x_i - \hat{\mu}| $ . 困難的一點是找到 $ \hat{\mu} $ .
現在,如果我們區分 wrt $ \mu $ 那麼我們需要區分 $ |x_i - \mu| $ . 如果 $ \mu \neq x_i $ 對於任何 $ x_i $ 然後 $ \frac{\partial \ell}{\partial \mu} = - \sum_{i=1}^n\text{sign}(x_i - \mu) $ 僅當_ $ n $ 是偶數(但仍然可能不為零!)。在任何 $ \mu \in \mathbf{x} $ 漸變不存在!.
現在對於任何 $ \mu $ 等於其中之一 $ x_i $ ,對數似然在這些點上是不可微的。現在假設 $ n $ 是奇數,可以證明 $ \hat{\mu} $ 實際上是樣本中位數。樣本中位數將是其中之一 $ x_i $ (中間 $ x_i $ 當。。。的時候 $ x_i $ 是有序的)。因此,mle 位於不可微分點之一——奇點!
我們如何保證對數似然是可微的?我不認為我們實際上可以強迫這是真的*,除非*我們選擇一個兩倍可微的對數似然。我認為這是一種建模選擇或假設。而不是我們可以保證的東西。其他假設可能意味著兩次可微的對數似然,但總的來說,我看不出我們最終會如何得到這樣的對數似然。