Sampling

為什麼應該/確實(?)統計抽樣適用於政治(例如蓋洛普)?

  • November 6, 2016

與人口規模相比,那裡的民意調查(例如蓋洛普)抽樣的人數少得離譜(例如,數億人中可能有一千人)。

**現在,對我來說,當您有充分的理由相信樣本代表總體(或類似地,其他樣本)**時,對總體進行抽樣作為估計總體統計數據的一種手段是有意義的。

例如,採樣顯然對醫學研究有意義,因為我們先驗地知道人類都有非常相似的基因組,並且這個因素使他們的身體表現相似。

請注意,這不是某種鬆散耦合——基因組是一個非常該死的強大決定因素

但是,我只是不明白在政治民意調查等事情上使用低樣本量的理由是什麼。

我可以相信任何給定社區中大約 80-90% 的人都會以類似的方式投票給總統(由於相似的社會經濟/教育背景),但這似乎很難證明樣本數量荒謬的低是合理的。實際上沒有令人信服的理由(至少對我而言)為什麼 1000 名隨機選民應該像其他 2 億選民一樣行事。

對我來說,你至少需要(比如說)100 倍這個數量。為什麼?我可以想到一堆原因,例如:

  1. 僅在加利福尼亞就有約 22,000 個選區。人們在經濟和教育背景上的成長如此不同,以至於 1000 人的民意調查似乎小得可笑。您如何總結平均少於 1 人的整個區域?
  2. 人們通常無法改變身體對藥物的反應,但他們可以通過思考改變他們對政治的看法。在我看來,當你處理政治時,沒有類似於醫學中的 DNA 的強制因素。**充其量我會想像應該有一小部分相關性。

然而不知何故,這樣的民意調查似乎……仍然有效?或者至少人們似乎認為他們這樣做了?

但他們為什麼要這樣做?也許我只是從根本上不了解採樣?有人可以解釋嗎?

我只是不能認真對待我看到的任何民意調查,但我覺得我或多或少是獨自一人……

您似乎在想像一個非常簡單的採樣模型。

最簡單的抽樣模型稱為簡單隨機抽樣。您選擇人口的一個子集(例如,通過隨機撥打電話號碼)並詢問回答他們如何投票的人。如果 487 人說克林頓,463 人說特朗普,其餘的人給你一些古怪的答案,那麼民意調查公司會報告說,49% 的選民更喜歡希拉里,而 46% 的選民更喜歡特朗普。然而,民意調查公司做的遠不止這些。一個簡單的隨機樣本對每個數據點賦予相同的權重。但是,假設您的樣本包含(偶然)600 名男性和 400 名女性,這顯然不能代表整個人口。如果男性作為一個群體傾向於一種方式,而女性則傾向於另一種方式,這會使你的結果產生偏差。但是,由於我們有很好的人口統計數據,您可以加權*通過計算女性的反應多一點而男性的反應少一點,這樣加權反應就更好地代表了總體。投票機構有更複雜的稱重模型,可以使非代表性樣本類似於更具代表性的樣本。

對抽樣響應進行加權的想法是基於相當堅實的統計基礎,但在選擇哪些因素對權重有貢獻時有一定的靈活性。大多數民意調查機構都會根據性別、年齡和種族等人口統計因素重新加權。鑑於此,您可能認為政黨身份(民主黨、共和黨等)也應包括在內,但事實證明,大多數民意調查公司並未在其權重中使用它:政黨(自我)身份與選民的選擇糾纏不清以一種使它不那麼有用的方式。

許多投票機構也在“可能的選民”中報告他們的結果。在這些中,根據他們實際參加民意調查的可能性來選擇或加權受訪者。該模型無疑也是數據驅動的,但因素的精確選擇允許一定的靈活性。例如,在 2008 年或 2016 年之前,包括候選人和選民種族(或性別)之間的互動甚至是不明智的,但我懷疑他們現在有一些預測能力。

理論上,您可以將各種事物作為權重因素包括在內:音樂偏好、眼睛顏色等。但是,人口統計因素是權重因素的流行選擇,因為:

  • 根據經驗,它們與選民行為密切相關。顯然,沒有鐵定的法律“強迫”白人成為精瘦的共和黨人,但在過去的五十年裡,他們傾向於這樣做。

    • 人口值是眾所周知的(例如,來自人口普查或重要記錄)

然而,民意調查人員也會看到其他人看到的相同新聞,並且可以在必要時調整權重變量。

還有一些“捏造因素”有時被用來解釋民意調查結果。例如,受訪者有時不願意給出“在社會上不受歡迎”的答案。**布拉德利效應**假設白人選民有時會淡化他們對反對少數族裔的白人候選人的支持,以避免出現種族主義。它以湯姆布拉德利(Tom Bradley)的名字命名,他是一位非裔美國州長候選人,儘管在民意調查中輕鬆領先,但他還是以微弱優勢輸掉了選舉。

最後,你完全正確的是,詢問某人意見的行為可以改變它。投票公司試圖以中立的方式寫出他們的問題。為避免可能的響應順序出現問題,候選人的姓名可能會以隨機順序列出。有時也會對一個問題的多個版本進行相互測試。這種影響也可以被利用在推送民意調查中達到邪惡的目的,在這種情況下,面試官實際上並不是對收集回复感興趣,而是對影響他們感興趣。例如,一項推送民意調查可能會詢問“即使有報導稱 [候選人 A] 是一名兒童性騷擾者,你會投票給他嗎?”。


  • 你也可以為你的樣本設定明確的目標,比如包括 500 名男性和 500 名女性。這被稱為分層抽樣——人口被分成不同的組,然後對每個組進行隨機抽樣。在實踐中,這在民意調查中並不經常這樣做,因為您需要分成很多詳盡的群體(例如,德克薩斯州城市的 18-24 歲之間受過大學教育的男性)。

引用自:https://stats.stackexchange.com/questions/244567

comments powered by Disqus