一般擬合優度檢驗的貝葉斯等價物是什麼?
我有兩個數據集,一個來自一組物理觀測(溫度),一個來自一組數值模型。我正在做一個完美的模型分析,假設模型集合代表一個真實的、獨立的樣本,並檢查觀察是否來自該分佈。我計算的統計數據是標準化的,理論上應該是標準正態分佈。當然它並不完美,所以我想測試一下擬合度。
使用常客推理,我可以計算 Cramér-von Mises 統計量(或 Kolmogorov-Smirnov 等)或類似的,並在表格中查找值以獲得 p 值,以幫助我確定我的值的可能性有多大看到是,鑑於觀察結果與模型相同。
這個過程的貝葉斯等價物是什麼?也就是說,我如何量化我對這兩個分佈(我的計算統計量和標準正態)不同的信念的強度?
我建議將《貝葉斯數據分析》一書作為回答這個問題(特別是第 6 章)以及我將要說的所有內容的重要來源。但是,貝葉斯解決此問題的常用方法之一是使用後驗預測 P 值 (PPP)。在我開始討論 PPP 將如何解決這個問題之前,讓我首先定義以下符號:
讓是觀察到的數據和是參數的向量。我們定義作為可以觀察到的複制數據,或者,預測性地思考,作為我們明天將看到的數據,如果產生的實驗今天被複製了相同的模型和相同的值這產生了觀察到的數據。
注意,我們將定義分佈給定具有後驗預測分佈的當前知識狀態
現在,我們可以通過定義測試量來衡量模型和數據之間的差異,即我們希望檢查的數據方面。測試量或差異度量,, 是參數和數據的標量匯總,在將數據與預測模擬進行比較時用作標準。測試量在貝葉斯模型檢查中扮演著測試統計在經典測試中扮演的角色。我們定義符號對於一個檢驗統計量,它是一個只依賴於數據的檢驗量;在貝葉斯背景下,我們可以概括測試統計數據以允許在其後驗分佈下依賴於模型參數。
經典地,檢驗統計量的 p 值是
其中概率被接管和固定的。 從貝葉斯的角度來看,數據對後驗預測分佈的擬合不足可以通過測試量的尾部區域概率或 p 值來衡量,並使用後驗模擬計算. 在貝葉斯方法中,測試量可以是未知參數和數據的函數,因為測試量是根據未知參數的後驗分佈來評估的。
現在,我們可以將貝葉斯 p 值 (PPP) 定義為複制數據可能比觀察數據更極端的概率,由測試量測量:
其中概率取自後驗分佈和後驗預測分佈(即聯合分佈,):
在哪裡是指標函數。在實踐中,儘管我們通常使用模擬來計算後驗預測分佈。 如果我們已經有了,比如說,後驗分佈的模擬,那麼我們可以只畫一個從每個模擬的預測分佈; 我們現在有從聯合後驗分佈中得出,. 後驗預測檢查是實現的測試量之間的比較和預測測試量. 估計的 p 值只是這些的比例測試量等於或超過其實際值的模擬;也就是說,為此
為了. 與經典方法相比,貝葉斯模型檢查不需要特殊方法來處理“討厭的參數”。通過使用後驗模擬,我們隱式地對模型中的所有參數進行平均。
另一個來源,Andrew Gelman 在這裡也有一篇關於 PPP 的非常好的論文:http: //www.stat.columbia.edu/~gelman/research/unpublished/ppc_understand2.pdf