怎麼磷(D;θ)=P(D|θ)磷(D;θ)=磷(D|θ)P(D;theta) = P(D|theta)?

February 26, 2019

我最近開始閱讀最大似然估計和貝葉斯統計。我知道給定一個統計模型 $ (X, (P_\theta)) $ 在哪裡， $ \theta $ 屬於大參數空間 $ \Theta $ , 之間的 KL 散度 $ P_\theta $ 和 $ P_\theta* $ ( $ \theta^* $ 是我們想要找到的真實參數）被最小化為 $ \theta $ 最大化 $ \prod_{i=1}^{n}p_\theta(X_i) $ . 假設事件是獨立且同分佈的，這相當於最大化聯合概率 $ P[X_1=x_1, X_2=x_2, …,X_n=x_n]. $ （獨立性假設允許將其等同於單個元素的乘積）

貝葉斯方法解釋了對分佈的先驗信念 $ \theta $ , $ P(\theta) $ 並最大化 $ P(\theta|X) $ ，根據貝葉斯規則相當於最大化， $ P(X|\theta)P(\theta)/P(X) $ . 我理解這部分的事情。在此之後， $ P(X|\theta) $ 被稱為“可能性”並被替換為 $ P[X_1=x_1, X_2=x_2, …,X_n=x_n] $ ，這只是 X 在分佈中的個體概率的乘積 $ P_\theta $ . 這是否意味著 $ P[X_1=x_1, X_2=x_2, …,X_n=x_n] $ 實際上是 $ P_\theta[X_1=x_1, X_2=x_2, …,X_n=x_n] $ , 即給定的概率 $ \theta $ ，或類似的東西？

我不太擅長概率和分佈，我的理解是對象 $ P(X|\theta) $ 稱為條件概率，對象 $ P[X_1=x_1, X_2=x_2, …,X_n=x_n] $ （等於 $ \prod_{i=1}^{n}p_\theta(X_i) $ 通過獨立性）稱為聯合概率，它們是非常不同的東西。我見過作者使用 $ P(X;\theta) $ 對於某些情況下的最大似然聯合概率。我很困惑為什麼聯合概率和條件概率被認為是相等的？

這裡有幾個問題：

在經典統計中，所有使用的分佈都隱含地以 $ \theta $ ，這被認為是“未知常數”。在貝葉斯分析中，沒有未知常數之類的東西（任何未知都被視為隨機變量），而是我們對所有概率語句使用顯式條件語句。

這意味著，在貝葉斯分析中，採樣密度 $ P(X|\theta) $ 是對象 $ P_\theta(X) $ 你在經典案例中提到的。（似然函數只是將採樣密度視為參數的函數 $ \theta $ 和 $ X=x $ 被認為是固定的。）這也意味著密度 $ P(X) $ 在貝葉斯分析中不是以 $ \theta $ . 它是數據的邊際密度，由下式給出：$$ P(X) = \int \limits_{\Theta} P(X|\theta) P(\theta) \ d \theta. $$在您的問題中有幾個地方，您對條件語句有些草率，最終您會模棱兩可地說明數據的條件分佈和邊際分佈。這在經典統計中不是什麼大問題（因為所有概率語句都隱含地以參數為條件），但它會在貝葉斯分析中給您帶來麻煩。

符號 $ P(X ; \theta) $ 通常僅在經典統計中使用，並且用於表示與 $ P_\theta(X) $ —即，它隱含地是給定參數的數據的條件密度。使用這種符號表示聯合密度是不尋常的（並且令人困惑）。

使參數的後驗分佈最大化的貝葉斯方法是一種稱為最大後驗 (MAP) 估計的點估計方法。這是一種點估計方法，可為您提供單點估計。您應該記住，貝葉斯通常還關注保留整個後驗密度，因為這包含比 MAP 估計器更多的信息。

引用自：https://stats.stackexchange.com/questions/394504

comments powered by Disqus

怎麼磷(D;θ)=P(D|θ)磷(D;θ)=磷(D|θ)P(D;theta) = P(D|theta)?

相關問答

在貝葉斯模型中，您可以使用 Uniform(-inf, inf) 作為先驗嗎？

用最大似然法尋找類別

為什麼指數族在統計學中如此重要？

MLE 和非正態性

為什麼最大似然估計量對異常值是可疑的？

在實踐中如何實現神經網絡參數的先驗分佈？