Bayesian

從概念上講,自舉與貝葉斯自舉?

  • November 11, 2015

我無法理解貝葉斯引導過程是什麼,以及它與您的正常引導過程有何不同。如果有人可以對兩者進行直觀/概念性的審查和比較,那就太好了。

讓我們舉個例子。

假設我們有一個數據集 X,它是 [1,2,5,7,3]。

如果我們多次替換採樣以創建等於 X 大小的樣本大小(因此,[7,7,2,5,7],[3,5,2,2,7] 等),然後我們計算每個的均值,是樣本均值的自舉分佈嗎?

那將是什麼貝葉斯引導分佈?

其他參數(方差等)的貝葉斯引導分佈如何以相同的方式完成?

(frequentist) bootstrap 將數據作為未知人口分佈的合理近似值。因此,統計量(數據的函數)的抽樣分佈可以通過重複對觀測值進行替換重採樣併計算每個樣本的統計量來近似。

讓 $ y = (y_1,\ldots,y_n) $ 表示原始數據(在給出的示例中, $ n=5 $ )。讓 $ y^b = (y_1^b, \ldots, y_n^b) $ 表示引導樣本。這樣的樣本可能會重複一次或多次的某些觀察結果,而其他觀察結果將不存在。自舉樣本的平均值由下式給出$$ m_b = \frac{1}{n} \sum_{i=1}^n y_i^b. $$這是分佈 $ m_b $ 在用於近似未知總體的抽樣分佈的許多引導複製上。

為了理解常客自舉和貝葉斯自舉之間的聯繫,看看如何計算是有啟發性的 $ m_b $ 從不同的角度。

在每個引導樣本中 $ y^b $ , 每個觀察 $ y_i $ 發生在從 0 到 $ n $ 次。讓 $ h_i^b $ 表示次數 $ y_i $ 發生在 $ y^b $ , 然後讓 $ h^b = (h_1^b, \ldots, h_n^b) $ . 因此 $ h_i^b \in {0, 1, \ldots, n-1,n} $ 和 $ \sum_{i=1}^n h_i^b = n $ . 給定 $ h^b $ ,我們可以構造一個總和為 1的非負權重集合: $ w^b = h^b/n $ , 在哪裡 $ w_i^b = h_i^b/n $ . 使用這種表示法,我們可以將引導樣本的平均值重新表示為 $$ m_b = \sum_{i=1}^n w_i^b, y_i. $$

為 bootstrap 樣本選擇觀測值的方式決定了聯合分佈 $ w^b $ . 特別是, $ h^b $ 具有多項分佈,因此$$ (n,w^b) \sim \textsf{Multinomial}(n,(1/n)_{i=1}^n). $$因此,我們可以計算 $ m_b $ 通過繪圖 $ w^b $ 從它的分佈和計算點積 $ y $ . 從這個新的角度來看,觀察值似乎是固定的,而權重是變化的。

在貝葉斯推理中,觀察確實被認為是固定的,因此這種新觀點似乎與貝葉斯方法相吻合。實際上,根據貝葉斯自舉法計算平均值的不同之處僅在於權重的分佈。(儘管如此,從概念的角度來看,貝葉斯引導程序與常客版本完全不同。)數據 $ y $ 是固定的並且權重 $ w $ 是未知參數。我們可能對依賴於未知參數的數據 的某些功能感興趣:$$ \mu = \sum_{i=1}^n w_i, y_i. $$

這是貝葉斯引導程序背後的模型的縮略圖:觀察的抽樣分佈是多項式的,權重的先驗是限制性狄利克雷分佈,它將所有權重放在單純形的頂點上。(一些作者將此模型稱為多項似然模型。)

該模型為權重生成以下後驗分佈: $$ w \sim \textsf{Dirichlet}(1,\ldots,1). $$ (這個分佈在單純形上是平坦的。)權重的兩個分佈(頻率分佈和貝葉斯分佈)非常相似:它們具有相同的均值和相似的協方差。Dirichlet 分佈比多項分佈“更平滑”,因此貝葉斯自舉可以稱為平滑自舉。我們可以將常客自舉解釋為貝葉斯自舉的近似。

給定權重的後驗分佈,我們可以近似函數的後驗分佈 $ \mu $ 通過重複抽樣 $ w $ 從它的狄利克雷分佈和計算點積 $ y $ .

我們可以採用估計方程的框架 $$ \sum_{i=1}^n w_i, g(y_i,\theta) = \underline 0, $$ 在哪裡 $ g(y_i,\theta) $ 是依賴於未知參數(向量)的估計函數向量 $ \theta $ 和 $ \underline 0 $ 是一個零向量。如果這個方程組有一個唯一解 $ \theta $ 給定 $ y $ 和 $ w $ ,那麼我們可以通過繪製來計算它的後驗分佈 $ w $ 從其後驗分佈和評估該解決方案。(估計方程的框架與經驗似然和廣義矩量法(GMM)一起使用。)

最簡單的情況是我們已經處理過的情況: $$ \sum_{i=1}^n w_i,(y_i - \mu) = 0. $$ 對於均值和方差, $ \theta = (\mu,v) $ 我們有 $$ g(y_i,\theta) = \begin{pmatrix} y_i - \mu \ (y_i - \mu)^2 - v \end{pmatrix}. $$ 設置比常客引導程序更複雜,這就是貝葉斯可能採用常客引導程序作為快速近似的原因。

引用自:https://stats.stackexchange.com/questions/181350

comments powered by Disqus