這個非獨立同分佈伯努利變量的隨機和的概率分佈是多少?
我試圖找到隨機數量的變量之和的概率分佈,這些變量的分佈不同。這是一個例子:
John 在客戶服務呼叫中心工作。他接到有問題的電話並試圖解決這些問題。解決不了的,就交給上級。假設他一天接到的電話數量服從泊松分佈,均值. 每個問題的難度各不相同,從非常簡單的問題(他絕對可以處理)到非常專業的問題,他不知道如何解決。假設概率他將能夠解決第i個問題,遵循帶有參數的 Beta 分佈和並且獨立於前面的問題。他一天解決的電話數量分佈如何?
更正式地說,我有:
為了
在哪裡,和
請注意,現在,我很高興假設是獨立的。我也接受參數和不會相互影響,儘管在現實生活中的例子中大,參數和是這樣的,因此 Beta 分佈在低成功率的情況下具有更大的質量. 但是,讓我們暫時忽略它。
我可以計算僅此而已。我還可以模擬值以了解分佈情況看起來像(看起來像泊松,但我不知道這是否取決於和我嘗試過,或者它是否泛化,以及它如何因不同的參數值而變化)。知道這個分佈是什麼或者我可以如何推導它嗎?
請注意,我也在TalkStats 論壇上發布了這個問題,但我認為它可能會在這裡得到更多關注。為交叉發布而道歉,並在此先感謝您抽出寶貴的時間。
編輯:事實證明(請參閱下面非常有用的答案 - 並感謝那些!),它確實是一個分佈,這是我根據直覺和一些模擬猜測的,但無法證明。不過,我現在發現令人驚訝的是,泊松分佈僅取決於分佈,但不受其方差的影響。
例如,以下兩個 Beta 分佈具有相同的均值但不同的方差。為清楚起見,藍色 pdf 表示和紅色的.
但是,它們都會導致相同的結果在我看來,這似乎有點違反直覺。(不是說結果不對,只是意外!)
調用(即) 根據泊松過程到達。總調用次數服從泊松分佈。將調用分為兩種類型,例如是否或者. 目標是確定生成s。這是微不足道的,如果以固定概率:通過泊松過程的疊加原理,整個過程變薄為s 也是一個泊松過程,速率. 事實上就是這樣,我們只需要一個額外的步驟就可以到達那裡。
邊緣化, 以便
在哪裡是貝塔函數。利用這個事實,以上簡化為;
換句話說,. 由疊加性質,是泊松分佈的比率. 一個數值例子(帶R)……在圖中,垂直線來自模擬,紅點是上面導出的pmf:
draw <- function(alpha, beta, mu) { N <- rpois(1, mu); p = rbeta(N, alpha, beta); sum(rbinom(N, size=1, prob=p)) } pmf <- function(y, alpha, beta, mu) dpois(y, alpha*mu/(alpha+beta)) y <- replicate(30000,draw(4,5,10)) tb <- table(y) # simulated pmf plot(tb/sum(tb), type="h", xlab="Y", ylab="Probability") # analytic pmf points(0:max(y), pmf(0:max(y), 4, 5, 10), col="red")