貝葉斯 Bootstrap 解釋

February 2, 2020

我正在使用貝葉斯 Bootstrap 進行一些分析。給定數據集，我們生成自舉樣本通過從 , 有替換。在經典 bootstrap 中，權重是相等的，即每個數據在已出現在的概率 .

在貝葉斯變體中，這些概率從無信息的平坦 Dirichlet 分佈中採樣
其中超參數是 . 然後我使用這些樣本來找到一些統計數據的分佈每個樣本的 .

現在我的問題如下：

在文獻中，對於經典案例，分佈被稱為抽樣分佈 . 然而，在貝葉斯情況下，它被稱為後驗 . 根據貝葉斯規則，我可以說現在我不明白如何引入先驗過採樣權重使得分佈以後呢？

在經典案例中，基本假設是數據的分佈就是總體的分佈是什麼意思？這裡的人口指的是什麼？

在經典的bootstrap中，通過從您的數據中抽取帶有替換的樣本，您可以模擬從總體中對數據進行抽樣。通過重複這個過程多次模擬抽取樣本的過程，因此，它可以讓您評估統計數據的可能變異性估計（一個函數）來自同一總體的不同樣本 . 因此，我們正在模擬統計數據的“抽樣分佈”（抽樣過程引起的變異）。

如Rubin (1981)所述，在貝葉斯引導程序中，您正在估計數據的分佈以及統計量估計的後驗分佈 . 這是一個非參數模型，我們假設您的數據點有一個分類分佈（可能性）

對於未知的概率，我們假設一個統一的狄利克雷先驗

參數化在哪裡 . 通過將其代入貝葉斯定理，我們能夠估計概率的後驗分佈

知道概率的後驗分佈，使我們知道後驗預測分佈（模型預測的數據分佈），

接下來，我們可以通過從後驗預測分佈中採樣並將統計量插入後驗樣本來輕鬆估計在數據上估計的測試統計量的分佈 . 如您所見，我們沒有估計直接，而是我們正在評估來自後驗分佈的樣本的統計信息。這就是“模擬參數的後驗分佈”的意思 ”。這種分佈既考慮了參數的可變性和數據 .

回答您的第一個問題，這是一個後驗分佈，因為我們在貝葉斯環境中運行。我們有先驗和可能性，通過結合它們我們估計後驗分佈。我們正在估計概率的後驗分佈 . 不同之處在於，在常客設置中，您將無法估計參數的分佈，您只能評估樣本上的統計數據，常客統計集中在克服這個問題上。

至於你的第二個問題，我相信它在人口和样本之間有什麼區別？線。基本上，“人口”在這裡可以與數據的“分佈”交換使用。從總體中抽取樣本，相當於“從”其分佈中實現隨機變量。這些是統計學與概率論的術語，實際上表示的是同一件事。

您可能也有興趣閱讀是否可以從貝葉斯的角度解釋引導程序？線程，以及兩篇博客文章The Non-parametric Bootstrap as a Bayesian Model和Easy Bayesian Bootstrap in R by Rasmus Bååth，他更詳細地討論了貝葉斯 bootstrap 並提供了許多示例。

作為旁注，Rubin (1981) 自己注意到兩個程序之間的差異主要是概念上的，關於我們如何看待結果，因為它們“在推理上非常相似”，並且“在操作上它們非常相似”。該過程略有不同，因為您使用隨機權重（從 Dirichlet 均勻分佈繪製）而不是那些，就像在經典的引導程序中一樣。結果的解釋不同，因為我們考慮了參數的可變性，如上所述。

引用自：https://stats.stackexchange.com/questions/447532

貝葉斯 Bootstrap 解釋

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

隨機森林是否擅長檢測交互項？

為什麼不以以下方式進行引導？

自舉回歸分析後，所有 p 值都是 0.001996 的倍數

為什麼jackknife的計算量比bootstrap少？

什麼時候可以將引導程序應用於時間序列模型？