怎麼磷(D;θ)=P(D|θ)磷(D;θ)=磷(D|θ)P(D;theta) = P(D|theta)?
我最近開始閱讀最大似然估計和貝葉斯統計。我知道給定一個統計模型 $ (X, (P_\theta)) $ 在哪裡, $ \theta $ 屬於大參數空間 $ \Theta $ , 之間的 KL 散度 $ P_\theta $ 和 $ P_\theta* $ ( $ \theta^* $ 是我們想要找到的真實參數)被最小化為 $ \theta $ 最大化 $ \prod_{i=1}^{n}p_\theta(X_i) $ . 假設事件是獨立且同分佈的,這相當於最大化聯合概率 $ P[X_1=x_1, X_2=x_2, …,X_n=x_n]. $ (獨立性假設允許將其等同於單個元素的乘積)
貝葉斯方法解釋了對分佈的先驗信念 $ \theta $ , $ P(\theta) $ 並最大化 $ P(\theta|X) $ ,根據貝葉斯規則相當於最大化, $ P(X|\theta)P(\theta)/P(X) $ . 我理解這部分的事情。在此之後, $ P(X|\theta) $ 被稱為“可能性”並被替換為 $ P[X_1=x_1, X_2=x_2, …,X_n=x_n] $ ,這只是 X 在分佈中的個體概率的乘積 $ P_\theta $ . 這是否意味著 $ P[X_1=x_1, X_2=x_2, …,X_n=x_n] $ 實際上是 $ P_\theta[X_1=x_1, X_2=x_2, …,X_n=x_n] $ , 即給定的概率 $ \theta $ , 或類似的東西 ?
我不太擅長概率和分佈,我的理解是對象 $ P(X|\theta) $ 稱為條件概率,對象 $ P[X_1=x_1, X_2=x_2, …,X_n=x_n] $ (等於 $ \prod_{i=1}^{n}p_\theta(X_i) $ 通過獨立性)稱為聯合概率,它們是非常不同的東西。我見過作者使用 $ P(X;\theta) $ 對於某些情況下的最大似然聯合概率。我很困惑為什麼聯合概率和條件概率被認為是相等的?
這裡有幾個問題:
- 在經典統計中,所有使用的分佈都隱含地以 $ \theta $ ,這被認為是“未知常數”。在貝葉斯分析中,沒有未知常數之類的東西(任何未知都被視為隨機變量),而是我們對所有概率語句使用顯式條件語句。
- 這意味著,在貝葉斯分析中,採樣密度 $ P(X|\theta) $ 是對象 $ P_\theta(X) $ 你在經典案例中提到的。(似然函數只是將採樣密度視為參數的函數 $ \theta $ 和 $ X=x $ 被認為是固定的。)這也意味著密度 $ P(X) $ 在貝葉斯分析中不是以 $ \theta $ . 它是數據的邊際密度,由下式給出:$$ P(X) = \int \limits_{\Theta} P(X|\theta) P(\theta) \ d \theta. $$在您的問題中有幾個地方,您對條件語句有些草率,最終您會模棱兩可地說明數據的條件分佈和邊際分佈。這在經典統計中不是什麼大問題(因為所有概率語句都隱含地以參數為條件),但它會在貝葉斯分析中給您帶來麻煩。
- 符號 $ P(X ; \theta) $ 通常僅在經典統計中使用,並且用於表示與 $ P_\theta(X) $ —即,它隱含地是給定參數的數據的條件密度。使用這種符號表示聯合密度是不尋常的(並且令人困惑)。
- 使參數的後驗分佈最大化的貝葉斯方法是一種稱為最大後驗 (MAP) 估計的點估計方法。這是一種點估計方法,可為您提供單點估計。您應該記住,貝葉斯通常還關注保留整個後驗密度,因為這包含比 MAP 估計器更多的信息。