貝葉斯統計的溫和方法
我最近開始閱讀 Bolstad 的“貝葉斯統計簡介”第二版。我有一個介紹性的統計課程,主要涵蓋統計測試,並且幾乎通過了回歸分析課程。我可以使用哪些其他書籍來補充我對這本書的理解?
我已經完成了前 100-125 頁。之後這本書開始討論假設檢驗,這是我非常興奮的內容,但有幾件事讓我感到震驚:
- 在計算中使用概率密度函數。換句話說,如何評估這樣的方程。
- 這整句話:“假設我們對 pi 使用 beta(1,1) 先驗。然後給定 y=8,後驗密度是 beta(9,3)。原假設的後驗概率是……”我相信beta(1,1) 指的是平均值為 1 且標準差為 1 的 PDF?我不明白它將如何變為 beta(9,3) 作為後驗密度函數。
我確實了解了先驗與後驗的概念,並了解如何使用表格手動應用它們。我得到(我認為!)pi 代表假定的人口比例或概率。
我不知道如何將其與我每天遇到的數據聯繫起來並獲得結果。
在計算中使用概率密度函數。換句話說,如何評估這樣的方程。
我認為您仍然從常客的角度考慮這一點:如果您正在尋找點估計,則後驗不會給您。你把 PDF 放進去,你把 PDF 拿出來。您可以通過計算後驗分佈的統計數據來得出點估計值,但我稍後會談到這一點。
我確實了解了先驗與後驗的概念,並了解如何使用表格手動應用它們。我得到(我認為!)pi 代表假定的人口比例或概率。
是一樣的: 都是PDF。只是習慣上用來表示特定的 PDF 是先驗密度。
我懷疑你沒有像你想像的那樣得到先驗和後驗,所以讓我們把它支持到貝葉斯統計的基本基礎:主觀概率。
主觀概率的思想實驗
假設我給你一個硬幣並問你是否認為這枚硬幣是公平的硬幣。你聽過很多人在概率課上談論不公平的硬幣,但你從未在現實生活中真正見過,所以你回答說:“是的,當然,我認為這是一枚公平的硬幣。” 但是,我什至問你這個問題的事實讓你有點反感,所以雖然你估計這是公平的,但如果不是這樣,你也不會感到驚訝。比你在零錢裡發現這枚硬幣更不驚訝(因為你認為那都是真正的貨幣,而且你現在並不真正相信我,因為我表現得很可疑)。
現在,我們進行一些實驗。翻轉 100 次後,硬幣返回 53 個正面。你對它是一枚公平的硬幣更有信心,但你仍然對它不是的可能性持開放態度。不同之處在於,如果這枚硬幣被證明有某種偏見,現在你會感到非常驚訝。
我們如何在這裡代表你之前和之後的信念,特別是關於硬幣出現正面的概率(我們將表示)? 在頻率論者的環境中,你的先前信念——你的零假設——是. 運行實驗後,您無法拒絕空值,因此您繼續假設是的,硬幣可能是公平的。但是,我們如何封裝您對硬幣公平的*信心的變化?*在實驗之後,您可以打賭硬幣是公平的,但在實驗之前,您會感到恐懼。
在貝葉斯設置中,您通過不將概率視為標量值而是將其視為隨機變量(即函數)來封裝您對命題的信心。而不是說我們說,從而封裝了我們對 PDF 方差的信心。如果我們設置一個高方差,我們會說,“我認為概率是 0.5,但如果我在世界上實際觀察到的概率遠離這個值,我不會感到驚訝。我認為,但坦率地說,我不是很確定。”通過設置較低的方差,我們是在說,“我不僅相信概率是 0.5,而且如果實驗提供的值不是很接近。”所以,在這個例子中,當你開始實驗時,你有一個高方差的先驗。在收到證實你的先驗的數據後,先驗的平均值保持不變,但方差變得更窄。我們相信運行實驗後比以前高得多。
那麼我們如何進行計算呢?
我們以 PDF 開始,以 PDF 結束。當您需要報告點估計時,您可以計算後驗分佈的均值、中位數或眾數等統計數據(取決於您的損失函數,我現在不會討論。讓我們堅持使用均值)。如果您的 PDF 有一個封閉式解決方案,確定這些值可能很簡單。如果後驗比較複雜,您可以使用 MCMC 等程序從您的後驗中採樣,並從您抽取的樣本中得出統計數據。
在具有 Beta 先驗和二項式似然的示例中,後驗的計算簡化為非常簡潔的計算。鑑於:
- 事先的:
- 可能性:
然後後驗簡化為:
- 之後:
每當您有 beta 先驗和二項式似然時,都會發生這種情況,原因應該在DJE提供的計算中顯而易見。當特定的先驗似然模型總是給出與先驗具有相同分佈類型的後驗時,用於先驗和似然的分佈類型之間的關係稱為共軛。有許多具有共軛關係的分佈對,並且貝葉斯學經常利用共軛來簡化計算。給定一個特定的可能性,您可以通過選擇一個共軛先驗(如果存在並且您可以證明您選擇先驗的合理性)來使您的生活更輕鬆。
我相信 beta(1,1) 是指平均值為 1 且標準偏差為 1 的 PDF?
在正態分佈的常見參數化中,這兩個參數分別表示分佈的均值和標準差。但這就是我們參數化正態分佈的方式。其他概率分佈的參數化非常不同。
Beta 分佈通常被參數化為在哪裡和稱為“形狀”參數。Beta 分佈非常靈活,並且根據這些參數的設置方式採用許多不同的形式。為了說明此參數化與您的原始假設有何不同,以下是計算 Beta 隨機變量的均值和方差的方法:
如您所見,均值和方差不是該分佈參數化的一部分,但它們具有封閉形式的解,即輸入參數的簡單函數。
我不會詳細描述其他知名發行版的參數化差異,但我建議您查看一些。任何基本文本,甚至 Wikipedia都應該在某種程度上描述更改參數如何修改分佈。您還應該閱讀不同分佈之間的關係(例如,是一樣的).