Sampling
為什麼要在實際應用中考慮無替換抽樣?
在我看來,有放回抽樣比無放回抽樣有兩個優點:
1)您無需擔心有限總體校正。
- 有可能從總體中多次提取元素 - 然後您可以重複使用測量值並節省時間。
當然,從學術 POV 來看,必須研究這兩種方法。但從實際的 POV 來看,鑑於替換的優點,我不明白為什麼要考慮不替換抽樣。
但我是統計學的初學者,所以可能有很多充分的理由說明不更換可能是更好的選擇——至少對於特定用例而言。請解開我的疑惑!
擴展@Scortchi 的答案。. .
假設總體有 5 名成員,並且您有預算來抽樣 5 個人。您對變量 X 的總體平均值感興趣,這是該總體中個體的特徵。您可以按照自己的方式進行操作,並隨機抽樣替換。樣本均值的方差將為 V(X)/5。
另一方面,假設您對這五個人進行抽樣而不進行替換。然後,樣本均值的方差為 0。您已經對整個總體進行了抽樣,每個個體恰好一次,因此“樣本均值”和“總體均值”之間沒有區別。他們是一樣的東西。
在現實世界中,每次必須進行有限總體校正時,您都應該高興得跳起來,因為(鼓聲……)它會使估計器的方差下降,而無需收集更多數據。幾乎沒有什麼能做到這一點。這就像魔術:好魔術。
在數學中說完全相同的事情(注意 <,並假設樣本量大於 1):
校正 < 1 意味著應用校正會使方差下降,因為您通過將其與方差相乘來應用校正。方差下降 == 好。
朝著相反的方向前進,完全遠離數學,想想你在問什麼。如果您想了解總體並且可以從中抽取 5 個人樣本,您是否有可能通過對同一個人進行 5 次抽樣來了解更多信息,或者通過確保您似乎更有可能了解更多信息?你抽樣5個不同的人?
現實世界的情況幾乎與您所說的相反。您幾乎從不使用替換進行採樣 — 只有在您執行特殊操作(如引導程序)時。在這種情況下,您實際上是在試圖搞砸估計器並給它一個“太大”的方差。