貝塔分佈背後的直覺是什麼?
免責聲明:我不是統計學家,而是軟件工程師。我在統計學方面的大部分知識都來自自學,因此我在理解對這裡的其他人來說似乎微不足道的概念方面仍然存在許多差距。因此,如果答案包含較少具體的術語和更多解釋,我將非常感激。想像一下,你正在和你的祖母說話 :)
我試圖掌握 beta 分發的本質**——****它應該用於什麼以及在每種情況下如何解釋它。如果我們談論正態分佈,可以將其描述為火車的到達時間:最常見的是它準時到達,不太常見的是提前 1 分鐘或晚 1 分鐘,很少有不同的到達時間從平均值 20 分鐘。均勻分佈特別描述了每張彩票在彩票中的機會。二項分佈可以用擲硬幣等來描述。但是對於beta 分佈有這麼直觀的解釋**嗎?
比方說, $ \alpha=.99 $ 和 $ \beta=.5 $ . 貝塔分佈 $ B(\alpha, \beta) $ 在這種情況下看起來像這樣(在 R 中生成):
但它實際上是什麼意思?Y軸顯然是一個概率密度,但是X軸是什麼?
我將非常感謝任何解釋,無論是這個例子還是其他任何例子。
簡短的版本是 Beta 分佈可以理解為表示概率的分佈,即它表示當我們不知道該概率是什麼時概率的所有可能值。這是我最喜歡的對此的直觀解釋:
任何關注棒球的人都熟悉擊球率——簡單來說,就是一名球員獲得基本命中的次數除以他擊球的次數(所以它只是一個介於
0
和之間的百分比1
)。.266
通常被認為是平均擊球率,而.300
被認為是出色的擊球率。想像一下,我們有一個棒球運動員,我們想預測他整個賽季的平均擊球率。你可能會說我們可以只使用他迄今為止的擊球率——但這在賽季開始時將是一個非常糟糕的衡量標準!如果一個球員上場擊球一次並得到一個單打,他的擊球率是短暫的
1.000
,而如果他三振出局,他的擊球率是0.000
。如果你連續擊球五六次,情況也不會好多少——你可能會得到一個幸運的連勝並得到一個平均值1.000
,或者一個不幸的連勝並得到一個平均值0
,這兩者都不能很好地預測如何你會在那個賽季擊球。為什麼你在前幾次安打中的擊球率不能很好地預測你最終的擊球率?當一名球員的第一次擊球是三振出局時,為什麼沒有人預測他整個賽季都不會被擊中?因為我們是帶著*事先的期望進去的。*我們知道,在歷史上,一個賽季的大多數打擊率都徘徊在
.215
和之間.360
,雙方都有一些極為罕見的例外。我們知道,如果一名球員在開始時連續獲得幾次三振出局,這可能表明他最終的表現會比平均水平差一些,但我們知道他可能不會偏離這個範圍。考慮到我們的平均擊球率問題,它可以用二項分佈(一系列成功和失敗)來表示,表示這些先驗期望(我們在統計學中稱之為先驗)的最佳方法是使用 Beta 分佈——它是說,在我們看到球員第一次揮桿之前,我們大致預計他的擊球率會是這樣。Beta 分佈的域是
(0, 1)
,就像概率一樣,所以我們已經知道我們走在正確的軌道上,但是 Beta 對這項任務的適用性遠不止於此。我們預計球員整個賽季的打擊率最有
.27
可能.21
在.35
. 這可以用帶有參數的 Beta 分佈來表示 $ \alpha=81 $ 和 $ \beta=219 $ :curve(dbeta(x, 81, 219))
我想出這些參數有兩個原因:
- 平均值是 $ \frac{\alpha}{\alpha+\beta}=\frac{81}{81+219}=.270 $
- 正如您在圖中看到的那樣,這種分佈幾乎完全位於
(.2, .35)
擊球平均值的合理範圍內。你問過 x 軸在 beta 分佈密度圖中代表什麼——這裡它代表他的擊球率。因此請注意,在這種情況下,不僅 y 軸是概率(或更準確地說是概率密度),而且 x 軸也是(畢竟擊球率只是命中的概率)!Beta 分佈表示概率的概率分佈。
但這就是 Beta 發行版如此合適的原因。想像一下玩家被擊中。他本賽季的記錄是現在
1 hit; 1 at bat
。然後我們必須更新我們的概率——我們希望將整個曲線移動一點以反映我們的新信息。雖然證明這一點的數學有點複雜(這裡顯示),但結果非常簡單。新的 Beta 發行版將是:$ \mbox{Beta}(\alpha_0+\mbox{hits}, \beta_0+\mbox{misses}) $
在哪裡 $ \alpha_0 $ 和 $ \beta_0 $ 是我們開始使用的參數,即 81 和 219。因此,在這種情況下, $ \alpha $ 增加了 1(他的一擊),而 $ \beta $ 根本沒有增加(還沒有錯過)。這意味著我們的新發行版是 $ \mbox{Beta}(81+1, 219) $ , 或者:
curve(dbeta(x, 82, 219))
請注意,它幾乎沒有變化——這種變化確實是肉眼看不見的!(那是因為一擊並不真正意味著什麼)。
然而,球員在整個賽季中擊球次數越多,曲線就越會移動以適應新的證據,而且基於我們有更多證據的事實,曲線會越窄。假設在賽季中途他已經擊球 300 次,其中有 100 次擊球。新的分佈將是 $ \mbox{Beta}(81+100, 219+200) $ , 或者:
curve(dbeta(x, 81+100, 219+200))
請注意,曲線現在比以前更細並且向右移動(更高的擊球率)——我們對球員的擊球率有了更好的了解。
這個公式最有趣的輸出之一是生成的 Beta 分佈的預期值,這基本上是您的新估計。回想一下,Beta 分佈的期望值為 $ \frac{\alpha}{\alpha+\beta} $ . 因此,在 300 次實際擊球命中 100 次後,新的 Beta 分佈的期望值為 $ \frac{81+100}{81+100+219+200}=.303 $ - 注意它低於天真的估計 $ \frac{100}{100+200}=.333 $ ,但高於你在賽季開始時的估計( $ \frac{81}{81+219}=.270 $ )。您可能會注意到,這個公式相當於在球員的安打數和非安打數上加上“領先優勢”——您說的是“在賽季中以 81 次安打和 219 次非安打的記錄讓他開始” )。
因此,Beta 分佈最適合表示概率的概率分佈*:*我們事先不知道概率是多少,但我們有一些合理的猜測。