2016 年美國大選結果:預測模型出了什麼問題?
首先是英國脫歐,現在是美國大選。許多模型預測都大相徑庭,這裡有什麼可以吸取的教訓嗎?直到昨天太平洋標準時間下午 4 點,投注市場仍以 4 比 1 支持希拉里。
我認為,賭注市場應該是所有可用預測模型的集合。所以說這些模型做得不好並不牽強。
我看到一種解釋是選民不願意表明自己是特朗普的支持者。一個模型怎麼能包含這樣的效果呢?
我讀到的一個宏觀解釋是民粹主義的興起。那麼問題是統計模型如何捕捉到這樣的宏觀趨勢?
這些預測模型是否過於重視民意調查和情緒數據,而不是從國家在 100 年的觀點來看還不夠?我引用一個朋友的評論。
簡而言之,輪詢並不總是那麼容易。這次選舉可能是最艱難的。
每當我們嘗試進行統計推斷時,一個基本問題是我們的樣本是否能很好地代表感興趣的人群。許多類型的統計推斷都需要一個典型的假設,即我們的樣本是來自感興趣人群的完全隨機樣本(通常,我們還需要樣本是獨立的)。如果這些假設成立,我們通常可以根據統計理論很好地衡量我們的不確定性。
但我們絕對沒有這些假設適用於民意調查!我們感興趣的人群中正好有0個樣本:選舉日的實際投票。在這種情況下,如果不對數據進行進一步的、不可檢驗的假設,我們就無法做出任何有效的推斷。或者至少,在選舉日之前無法測試。
我們是否完全放棄並說“50%-50%!”?通常,沒有。我們可以嘗試對如何投票做出我們認為合理的假設。例如,也許我們想相信民意調查是對選舉日選票的無偏估計,加上一些特定的無偏時間噪聲(即隨著時間的推移不斷演變的公眾輿論)。我不是輪詢方法方面的專家,但我相信這是 538 型使用的類型。在 2012 年,它運作良好。所以這些假設可能是相當合理的。不幸的是,除了嚴格的定性推理之外,沒有真正的方法來評估這些假設。有關類似主題的更多討論,請參閱不可忽略的缺失主題。
我對 2016 年民意調查為何如此糟糕的理論:民意調查並不是對選民日行為的公正估計。也就是說,我猜特朗普的支持者(可能還有英國退歐的支持者)對民意調查者更加不信任。請記住,特朗普先生積極譴責民意調查。因此,我認為特朗普的支持者不太可能向民意調查機構報告他們的投票意圖,而不是他的對手的支持者。我推測這會導致民意調查出現無法預料的嚴重偏見。
分析師在使用民意調查數據時如何解釋這一點?僅基於民意調查數據,沒有真正的方法可以定量地做到這一點。民意調查數據並沒有告訴你關於那些沒有參與的人的任何信息。然而,人們可以通過選擇更合理(但不可檢驗)的關於民意調查數據與選舉日行為之間關係的假設來以定性方式改進民意調查。這不是微不足道的,也是成為一名優秀民意調查者真正困難的部分(注意:我不是民意調查者)。另請注意,結果對專家們來說也非常令人驚訝,所以這一次並沒有明顯的跡象表明這些假設被嚴重偏離了。
投票可能很難。