Combinatorics

從 m 人的列表中隨機選擇 x 人,從 y 人的列表中隨機選擇 n 個人的概率是多少?

  • March 6, 2012

如果我從 363 人的池中選擇 232 人而不進行替換,那麼 12 個特定人列表中的 2 人在該選擇中的概率是多少?

這是一場超級比賽的隨機抽籤,其中 363 名參賽者獲得了 232 個名額。關於選擇是否偏向於特定的 12 人群體存在爭議。

我最初計算這個的嘗試是有 232 選擇 363 可能的選擇。從十二個列表中的任何一個人的組合數是 1 選擇 12 + 2 選擇 12 + … + 11 選擇 12 + 12 選擇 12。因此 1 選擇 12 + 2 選擇 12 …. / 232 選擇 363 . 這最終是一個非常低的數字,顯然太低了。

我該如何計算?

**我是這樣解釋這個問題的:**假設據稱採樣是按如下方式進行的一張白紙票放在一個罐子裡,每張都標有一個人的名字,充分攪拌罐內內容物後隨機取出。預先,的門票被塗成紅色。恰好有兩張被選中的票是紅色的可能性有多大?最多兩張票是紅色的概率是多少?

可以得到一個精確的公式,但我們不需要做那麼多的理論工作。相反,我們只是跟踪從罐子中取出門票的機會。當時其中一些已被撤回,讓機會紅票已經看到被寫. 要開始,請注意如果(在開始之前你不能有任何紅票)和(可以肯定你一開始沒有紅票)。現在,在最近的抽獎中,彩票要么是紅色的,要么不是。在第一種情況下,我們以前有機會確切地看到紅票。然後我們碰巧從剩下的地方拉了一個紅色的門票,準確無誤到目前為止紅票。因為我們假設所有彩票在每個階段都有相同的機會,因此我們以這種方式繪製紅色的機會是. 在另一種情況下,我們有機會準確地獲得以前的紅票抽獎,並且在下一次抽獎時不向樣本添加另一張紅票的機會是. 因此,使用概率的基本公理(也就是說,兩個互斥情況的機會相加,條件機會相乘),

我們遞歸地重複這個計算,佈置一個三角形的值數組為了和. 經過一點計算,我們得到和,回答問題的兩個版本。這些都是很小的數字:無論你怎麼看,它們都是非常罕見的事件(少於千分之一)。

**作為仔細檢查,**我用計算機進行了 1,000,000 次這個練習。在這些實驗的 932 = 0.000932 中,觀察到 2 個或更少的紅票。這與計算結果非常接近,因為 934.3 的期望值的採樣波動約為 30(向上或向下)。以下是在 R 中進行模擬的方式:

> population <- c(rep(1,12), rep(0, 363-12)) # 1 is a "red" indicator
> results <- replicate(10^6, 
            sum(sample(population, 232)))   # Count the reds in 10^6 trials
> sum(results <= 2)                          # How many trials had 2 or fewer reds?
[1] 948

這一次,由於實驗是隨機的,結果發生了一些變化:在百萬次試驗中的 948 次中觀察到了兩張或更少的紅票。這仍然與理論結果一致。)

結論是,232 張罰單中的兩張或更少是紅色的可能性很小。 如果您確實有 363 人中的 232 人的樣本,則此結果強烈表明罐中票模型不能正確描述如何獲取樣本。 替代解釋包括(a)紅色票更難從罐子中取出(對他們的“偏見”)以及(b)在觀察樣本後票被著色(事後**數據窺探,確實表示任何偏見)。

一個解釋(b)在行動中的例子是一個臭名昭著的謀殺案審判的陪審團。假設它包括 363 人。從那個池子中,法院採訪了其中的 232 人。一位雄心勃勃的報社記者仔細查看了池中每個人的履歷,發現 363 人中有 12 人是金魚愛好者,但只有兩人接受了採訪。法院對金魚愛好者有偏見嗎?可能不是。

引用自:https://stats.stackexchange.com/questions/24211

comments powered by Disqus