Distributions
不知道分佈時如何採樣
我對統計學相當陌生(一些初學者級別的 Uni 課程),並且想知道如何從未知分佈中抽樣。具體來說,如果您不了解基礎分佈,是否有任何方法可以“保證”您獲得具有代表性的樣本?
舉例說明:假設您試圖弄清楚財富的全球分佈。對於任何給定的個人,您都可以通過某種方式找出他們的確切財富;但你不能“採樣”地球上的每一個人。因此,假設您隨機抽樣 n = 1000 人。
- 如果您的樣本不包括比爾蓋茨,您可能會認為不存在億萬富翁。
- 如果您的樣本確實包括比爾蓋茨,您可能會認為億萬富翁比實際情況更普遍。
無論哪種情況,您都無法真正說出億萬富翁的普遍程度或稀有程度。您甚至可能根本無法判斷是否存在。
對於這種情況,是否存在更好的採樣機制?
您將如何先驗地判斷使用何種採樣程序(以及需要多少樣本)?
在我看來,您可能必須對很大一部分人口進行“抽樣”才能知道,任何接近合理確定性的東西,億萬富翁在地球上的普遍程度或稀有程度,這是由於潛在的分佈有點困難跟…共事。
我對您的說法提出異議,即“無論哪種情況,您都無法真正說出億萬富翁的普遍或稀有程度”。讓成為人口中億萬富翁的未知部分。之前有統一的, 的後驗分佈後結果顯示有 0 個億萬富翁的抽獎是 Beta(1,1001) 分佈,如下所示:
而後驗分佈後結果顯示有 1 個億萬富翁的抽獎是 Beta(2,1000) 分佈,如下所示:
在這兩種情況下,您都可以確定. 你可能認為這不夠精確。但實際上,對於大小為 1000 的樣本,0.01 是相當精確的。您可能估計的大多數其他數量都沒有這個精確。例如,男性的比例只能在 0.1 的範圍內估計。