R

如何有效地模擬伯努利隨機變量的總和?

  • December 10, 2010

我正在建模一個隨機變量()這是一些~15-40k獨立伯努利隨機變量的總和(),每個都有不同的成功概率()。正式地,在哪裡和.

我有興趣快速回答諸如(在哪裡給出)。

目前,我使用隨機模擬來回答此類查詢。我隨機畫每個根據其, 然後將所有要獲得的值. 我重複這個過程幾千次並返回部分時間.

顯然,這並不完全準確(儘管隨著模擬次數的增加,準確度會大大提高)。此外,我似乎有足夠的關於分佈的數據來避免使用模擬。你能想出一個合理的方法來得到準確的概率嗎?

ps

我使用 Perl & R。

編輯

在回復之後,我認為可能需要進行一些澄清。我將簡要描述我的問題的設置。給定的是一個帶有圓周c和一組n映射到它的範圍的圓形基因組。例如,c=3*10^9ranges={[100,200],[50,1000],[3*10^9-1,1000],...}。請注意,所有範圍都是封閉的(包括兩端)。另請注意,我們只處理整數(整數單位)。

我正在尋找給定n映射範圍未覆蓋的圓圈上的區域。因此,為了測試圓上給定的長度範圍是否被覆蓋,我測試了範圍是隨機映射x的假設。映射的長度範圍完全覆蓋給定n長度範圍的概率是。當很大和/或很小時,這個概率變得非常小。我感興趣的是覆蓋範圍(超出)的數量。就是這樣形成的。q>x``x``(q-x)/c``c``q``n``x``Y

我測試我的零假設與單方面的替代方案(覆蓋不足)。另請注意,我正在測試多個假設(不同x長度),並確保對此進行糾正。

如果它通常類似於Poisson,您是否嘗試過使用帶有參數的 Poisson 來近似它?

編輯:我找到了一個理論結果來證明這一點,以及分佈的名稱: 這叫做泊松二項分佈Le Cam 不等式告訴您它的分佈與帶參數的泊松分佈的近似程度. 它告訴你這個近似值的質量取決於s,用Steele (1994)的話說。所以如果你所有的s 相當小,就像現在看起來的那樣,它應該是一個非常好的近似值。

編輯2:“相當小”有多小?嗯,這取決於你需要的近似值有多好!關於 Le Cam 定理的維基百科文章給出了我上面提到的結果的精確形式:概率質量函數(pmf)之間的絕對差之和並且上述泊松分佈的 pmf 不超過s。Le Cam (1960)的另一個結果可能更容易使用:這個總和也不超過最大值的 18 倍. 還有很多這樣的結果……參見Serfling (1978)的一篇評論。

引用自:https://stats.stackexchange.com/questions/5347

comments powered by Disqus