Calculus

0-1損失函數下,貝葉斯估計是後驗分佈的模式

  • February 21, 2018

當談到這個話題時,我的筆記相當輕鬆。我了解貝葉斯估計量,定義為(對於樣本空間):

(即後驗分佈的平均值)。

然後,您可以查看損失函數,其中損失函數的形式決定了(估計量)。通過將損失函數設置為二次、絕對誤差或零一,您將得到分別作為後驗的均值、後驗的中位數和後驗的眾數。

前兩個證明對我來說很有意義,但我不確定第三個。這是我的理解:

如果

如果(作為整合整個領域)。

這個證明顯然不嚴謹,(也可能不正確)。我無論如何都看不到這是如何被視為後驗分佈的“模式”。

提前致謝!

您需要小心處理此類問題,因為零一損失函數的定義將取決於您處理的是離散參數還是連續參數。對於離散參數,您可以將零一損失定義為指示函數,這可以正常工作。對於連續參數,您不能這樣做,因為如果您將離散指標集成到連續概率密度函數上,您將始終得到零(因此無論參數估計器如何,預期損失都將為零)。在後一種情況下,您需要通過在精確值周圍允許一些“容差”或使用 Dirac delta 函數來定義零一損失函數。下面我展示了離散和連續情況下後驗模式估計量的推導,在後者中使用狄拉克函數。Lebesgue-Stieltjes 整合


離散情況:假設未知參數 $ \theta $ 是離散隨機變量,令 $ \hat{\theta} $ 表示該參數的估計量。那麼零一損失函數定義為:

$$ L(\hat{\theta} , \theta) = \mathbb{I}(\hat{\theta} \neq \theta). $$

這給出了預期的損失:

$$ \begin{equation} \begin{aligned} \bar{L}(\hat{\theta} | X) \equiv \mathbb{E}(L(\hat{\theta}, \theta ) | X) &= \sum_{\theta \in \Theta} \mathbb{I}(\hat{\theta} \neq \theta) \pi (\theta | X ) \[8pt] &= 1 - \sum_{\theta \in \Theta} \mathbb{I}(\hat{\theta} =\theta) \pi (\theta | X ) \[8pt] &= 1 - \pi (\hat{\theta} | X). \end{aligned} \end{equation} $$

最小化預期損失相當於最大化後驗概率 $ \pi (\hat{\theta} | X) $ , 這發生在 $ \hat{\theta} $ 是後驗模式。


連續情況:假設未知參數 $ \theta $ 是一個連續隨機變量,令 $ \hat{\theta} $ 表示該參數的估計量。那麼零一損失函數定義為:

$$ L(\hat{\theta} , \theta) = 1 - \delta (\hat{\theta} - \theta). $$

在哪裡 $ \delta $ 表示狄拉克δ函數。這給出了預期的損失:

$$ \begin{equation} \begin{aligned} \bar{L}(\hat{\theta} | X) \equiv \mathbb{E}(L(\hat{\theta}, \theta ) | X) &= \int_{\Theta} (1- \delta (\hat{\theta} - \theta)) \pi (\theta | X ) \ d \theta \[8pt] &= 1 - \int_{\Theta} \delta (\hat{\theta} =\theta) \pi (\theta | X ) \ d \theta \[8pt] &= 1 - \pi (\hat{\theta} | X). \end{aligned} \end{equation} $$

最小化預期損失等同於最大化後驗密度 $ \pi (\hat{\theta} | X) $ , 這發生在 $ \hat{\theta} $ 是後驗模式。請注意,Dirac delta 函數並不是嚴格意義上的實函數;它實際上是真實線上的分佈。


**與 Lebesgue-Stieltjes 積分的統一:**我們可以通過將損失函數視為一個分佈來統一這兩種情況 $ \theta $ 具有分佈函數:

$$ H(\hat{\theta}-\theta) = \mathbb{I}(\hat{\theta} \geqslant \theta). $$

然後我們可以將預期損失寫為:

$$ \begin{equation} \begin{aligned} \bar{L}(\hat{\theta} | X) \equiv \mathbb{E}(L(\hat{\theta}, \theta ) | X) &= \int_{\Theta} \pi (\theta | X ) \ d H(\hat{\theta}-\theta) \[8pt] &= 1 - \pi (\hat{\theta} | X). \end{aligned} \end{equation} $$

這種情況包括離散情況和連續情況。事實上,這種處理隱含地使用了 Dirac delta 函數,因為這種情況下的損失分佈是 Dirac delta 函數的分佈函數。

引用自:https://stats.stackexchange.com/questions/329908

comments powered by Disqus