如果非隨機樣本與隨機樣本相同怎麼辦?
有時,在政治民意調查中,民意調查人員從給定人口中抽取非隨機樣本,但隨後他們將隨機抽樣理論的結果應用於他們的非隨機樣本。我聽說有人(不是統計學家)認為這仍然是有效的程序,因為獲得的非隨機樣本是可能的隨機樣本之一。
事實上,假設發生以下情況: 研究員 1 通過某種非隨機抽樣方法,選擇個體 A、B、C。 研究員 2 利用隨機抽樣,得到相同的樣本 A、B、C。兩者都應用隨機抽樣理論來分析他們的樣本。有什麼不同?是什麼讓研究員 1 錯了?
想法
至少到目前為止,我對此的唯一想法是,使隨機樣本在理論上有效的是隨機抽樣規定的程序,而不是獲得的特定樣本。
如果不是這種情況,您基本上可以修復您想要的任何樣本(例如,3000 名白人、24 歲、受過大學教育的女性的樣本),然後聲稱該樣本可以使用,因為它是一個您的人口中 3000 人的可能隨機樣本。
如果您隨機抽樣,則不太可能出現特別有偏見/不具代表性的樣本。
在理想的世界中,您將擁有一個非隨機樣本,它可以完美地準確地代表總體,這樣每個人口統計在樣本中的比例與在整個總體中的比例相同。
這是一個在現實世界中很難解決的問題(至少可以這麼說),因為您需要了解每個人口統計數據以及它如何影響您的結果。您可能會說“24 歲、受過大學教育的白人女性”已經足夠具體了,您只需要確保您的樣本中有正確比例的此類人(對於所有其他類似的人口統計也是如此),但他們可能是根據他們的居住地、學習地、成長地、宗教信仰和許多其他因素,他們或多或少地可能以某種方式行事。所以你也需要考慮到所有這些。這將是一大堆工作,在這個過程中,你可能會在不使用的情況下回答你的原始查詢您生成的樣本。基本上這樣做並沒有多大意義。
在現實世界中,隨機樣本是獲得人口準確表示的“足夠好”的嘗試。
現在確實有可能得到一個隨機樣本,它不能很好地反映整個人口的樣子(即“有偏見的”樣本)。
但是,當隨機抽樣時,獲得任何給定樣本的概率會顯著降低,因為樣本變得更加有偏差,並且總體上對總體的表示不太準確。當您有較大的樣本時,這尤其適用。
這是可以接受的,因為統計數據通常是關於對正確性的高度信心,而不是絕對確定性。
可以這樣想:如果您的人口中有 70% 是女性,而您隨機選擇一個人,那麼您有 70% 的機會選擇女性。因此,您預計隨機樣本中大約 70% 是女性。在所有情況下,數學可能不會精確到70%,但這是一般的想法。所以樣本比例應該大致對應於總體的比例。如果您的樣本以某種方式以 0% 的女性告終,您應該會感到相當驚訝。
根據您獲取隨機樣本的方式,也可能存在問題。如果您想從居住在一個國家/地區的每個人中抽取樣本,例如,您可以獲取註冊選民或持有駕駛執照的人的隨機子集。但是,您的樣本將嚴重偏向已登記投票或擁有駕駛執照的人。
這也可能導致部分隨機樣本,您將來自不同來源的不同大小的隨機樣本組合在一起,以便最終結果更能代表整個人口。雖然我不確定這在實踐中是否以及多久進行一次。為整個人群找到一個單一的數據源會更好。
但這是另一個問題。