Probability

拋硬幣的 Beta 分佈

  • October 2, 2016

Kruschke 的貝葉斯書說,關於使用 beta 分佈來擲硬幣,

例如,如果我們除了知道硬幣有正面和反面之外沒有任何先驗知識,那就等於之前觀察到了一個正面和一個反面,對應於a = 1和b = 1。

為什麼沒有信息就等於看到了一個頭和一個尾——0個頭和0個尾對我來說似乎更自然。

正如@whuber 在對 OP 的評論中所指出的那樣,引用是“邏輯上的花招”(很棒的表達!)。看到硬幣有頭有尾,我們唯一能說的是,“頭”和“尾”事件都不是不可能的。因此我們可以丟棄一個離散的先驗,它將所有的概率質量放在“頭”或“尾”上。但這本身並不會導致統一的先驗:這個問題要微妙得多。讓我們首先總結一下背景。我們正在考慮貝葉斯概率推斷的 Beta-Binominal 共軛模型硬幣的正面,給定獨立同分佈(有條件地) 擲硬幣。從表達上當我們觀察進入折騰:

我們可以說和扮演“先驗正面數量”和“先驗反面數量”(偽試驗)的角色,以及可以解釋為有效的樣本量。我們還可以使用眾所周知的後驗均值表達式作為先驗均值的加權平均值來得出這種解釋和样本均值.

看著,我們可以考慮兩點:

  1. 因為我們沒有先驗知識(最大無知),我們直觀地期望有效樣本量要“小”。如果它很大,那麼先驗將包含相當多的知識。另一種看待這一點的方式是注意到如果和相對於“小”和,後驗概率不會很大程度上取決於我們的先驗,因為 和. 我們預計,鑑於某些數據,不包含大量知識的先驗必須很快變得無關緊要。
  2. 另外,由於是先驗均值,我們沒有關於分佈的先驗知識 , 我們期望. 這是對稱性的一個論點——如果我們不知道更好,我們不會先驗地期望分佈偏向 0 或 1。Beta 分佈是

這個表達式只是對稱的如果 .

由於這兩個原因,無論之前(屬於 Beta 家族——記住,共軛模型!)我們選擇使用什麼,我們直觀地期望和是小”。我們可以看到,Beta-Binomial 模型的所有三個常用的非信息性先驗都具有這些特徵,但除此之外,它們完全不同。這很明顯:沒有先驗知識,或“最大無知”,不是科學定義,所以什麼樣的先驗表達“最大無知”,即什麼是非信息性先驗,取決於您實際上所說的“最大無知”是什麼意思無知”。

  1. 我們可以選擇一個先驗,它表示所有值是等概率的,因為我們不知道更好。再次,對稱論點。這對應於:

為了,即 Kruschke 使用的統一先驗。更正式地說,通過寫出 Beta 分佈的微分熵的表達式,您可以看到它在 . 現在,熵通常被解釋為一個分佈攜帶的“信息量”的度量:較高的熵對應於較少的信息。因此,您可以使用這個最大熵原理來說明,在 Beta 家族內部,包含較少信息(最大無知)的先驗就是這個統一的先驗。 2. 您可以選擇另一種觀點,即 OP 使用的觀點,並說沒有信息對應於沒有看到頭和尾,即

我們通過這種方式獲得的先驗稱為Haldane 先驗。功能有一個小問題——積分結束是無限的,即無論歸一化常數是多少,它都無法轉換為適當的 pdf。實際上,Haldane 先驗是一個適當的pmf,它把概率 0.5 放在, 0.5 開所有其他值的概率為 0. 但是,我們不要得意忘形 - 對於連續參數, 不對應於正確 pdf 的先驗稱為不正確的先驗。因為,如前所述,貝葉斯推理的所有重要因素是後驗分佈,所以不正確的先驗是可以接受的,只要後驗分佈是正確的。在 Haldane 先驗的情況下,如果我們的樣本至少包含一個成功和一個失敗,我們可以證明後驗 pdf 是正確的。因此,當我們觀察到至少一個頭和一個尾時,我們只能使用 Haldane 先驗。

在另一種意義上,霍爾丹先驗可以被認為是非信息性的:後驗分佈的平均值現在是 ,即正面的樣本頻率,這是頻率主義者的 MLE 估計 用於拋硬幣問題的二項式模型。此外,可信區間為對應於 Wald 置信區間。由於常客方法沒有指定先驗,因此可以說霍爾丹先驗是無信息的,或者對應於零先驗知識,因為它會導致常客做出的“相同”推斷。 3. 最後,您可以使用不依賴於問題參數化的先驗,即 Jeffreys 先驗,對於 Beta-Binomial 模型對應於

因此,有效樣本大小為 1。Jeffreys 先驗的優點是它在參數空間的重新參數化下是不變的。例如,統一先驗將相等的概率分配給,事件“頭”的概率。但是,您可以決定根據對數賠率對該模型進行參數化事件“頭”,而不是. 用對數機率表示“最大無知”的先驗是什麼,即事件“頭”的所有可能對數機率都是等概率的?這是 Haldane 先驗,如this (slightly cryptic) answer所示。相反,Jeffreys 在所有度量變化下都是不變的。Jeffreys 表示,不具有此屬性的先驗在某種程度上提供了信息,因為它包含有關您用於參數化問題的指標的信息。他的先前沒有。

總而言之,對於 Beta-Binomial 模型中的非信息性先驗,不僅僅是一個明確的選擇。你選擇什麼取決於你的意思是零先驗知識,以及你的分析目標。

引用自:https://stats.stackexchange.com/questions/238089

comments powered by Disqus