後驗何時收斂到點質量?
模型的後驗收斂到無限觀察極限中的點質量的必要條件是什麼?打破這種收斂結果的例子是什麼?
在我的腦海中,我認為錯誤指定的模型或不可識別的模型會破壞這些收斂保證,但我該如何正式化呢?
編輯:對於那些因為問題含糊而投票結束的人,請在下面評論我如何解決您的問題。
由於似然收斂導致後驗收斂
看待“收斂”的一種方法是以常客的方式,為了增加樣本量,隨著概率的增加,真實參數的後驗概率會高,而假參數的概率會低。
為此,我們可以使用貝葉斯因子
$$ \frac{P(\theta_1\vert x)}{P(\theta_0\vert x)} = \frac{P(x \vert \theta_1)}{P(x \vert \theta_0)} \frac{P(\theta_1)}{P(\theta_0)} $$
在哪裡 $ \theta_0 $ 是真正的參數值和 $ \theta_1 $ 是任何其他替代值。(在貝葉斯上下文中談論真實參數可能有點奇怪,但談論後驗收斂可能也是如此,這可能更像是後驗的常客性質)
假設似然比 $ {P(x \vert \theta_1)}/{P(x \vert \theta_0)} $ 對於所有值,將收斂到 0 的概率 $ \theta_1 $ 不具有與真實參數值的似然函數相同的似然函數 $ \theta_0 $ . (我們稍後會展示)
因此,如果 $ {P(x \vert \theta_1)}/{P(x \vert \theta_0)} $ 收斂,如果 $ P(\theta_0) $ 是非零的,那麼你將擁有 $ {P(\theta_1\vert x)}/{P(\theta_0\vert x)} $ 收斂。這意味著 $ P(x \vert \theta) $ 收斂到/集中在點 $ \theta_0 $ .
模型的後驗收斂到無限觀察極限中的點質量的必要條件是什麼?
所以你需要兩個條件:
- 兩個不同參數的似然函數一定是不同的。
- $ P(\theta) $ 對於正確的非零 $ \theta $ . (您可以類似地爭論密度 $ f(\theta) $ 如前所述)
直觀:如果您的先驗給出零密度/概率為真 $ \theta $ 那麼後驗永遠不會給真實的非零密度/概率 $ \theta $ ,無論您採集多大的樣本。
似然比收斂到零
大小樣本的似然比 $ n $ 收斂到零(當 $ \theta_1 $ 不是真正的參數)。
$$ \frac{P(x_1, x_2, \dots , x_n \vert \theta_1)}{P(x_1, x_2, \dots , x_n \vert \theta_0)} \quad \xrightarrow{P} \quad 0 $$
或負對數似然比
$$ -\Lambda_{\theta_1,n} = - \log \left( \frac{P(x_1, x_2, \dots , x_n \vert \theta_1)}{P(x_1, x_2, \dots , x_n \vert \theta_0)} \right) \quad \xrightarrow{P} \quad \infty $$
我們可以通過使用大數定律來證明這一點(我們需要假設測量是獨立的)。
如果我們假設測量是獨立的,那麼我們可以查看樣本大小的對數似然 $ n $ 作為單次測量的對數似然值的總和
$$ \Lambda_{\theta_1,n} = \log \left( \frac{P(x_1, x_2, \dots , x_n \vert \theta_1)}{P(x_1, x_2, \dots , x_n \vert \theta_0)} \right) = \log \left( \prod_{i=1}^n \frac{P(x_i \vert \theta_1)}{P(x_i \vert \theta_0)} \right) = \sum_{i=1}^n \log \left( \frac{P(x_i \vert \theta_1)}{P(x_i \vert \theta_0)} \right) $$
注意負對數似然的期望值
$$ E\left[- \log \left( \frac{P_{x \vert \theta_1}(x \vert \theta_1)}{P_{x \vert \theta_0}(x \vert \theta_0)} \right)\right] = -\sum_{ x \in \chi} P_{x \vert \theta_0}(x \vert \theta_0) \log \left( \frac{P_{x \vert \theta_1}(x \vert \theta_1)}{P_{x \vert \theta_0}(x \vert \theta_0)} \right) \geq 0 $$
類似於Kullback-Leibler 散度,它是正的,如Gibbs 不等式所示,並且當等式為零時出現 $ P(x \vert \theta_1) = P(x \vert \theta_0) $ :
所以如果這個期望是正的,那麼根據大數定律, $ -{\Lambda_{\theta_1,n}}/{n} $ 收斂到某個正常數 $ c $
$$ \lim_{n \to \infty} P\left( \left| -\frac{\Lambda_{\theta_1,n}}{n}-c \right| > \epsilon \right) = 0 $$
這意味著 $ -{\Lambda_{\theta_1,n}} $ 會收斂到無窮大。對於任何 $ K>0 $
$$ \lim_{n \to \infty} P\left( {-\Lambda_{\theta_1,n}} < K \right) = 0 $$