Hypothesis-Testing

解釋 xkcd 果凍豆漫畫:是什麼讓它好笑?

  • February 27, 2014

我看到他們運行的總共 20 次測試中有一次,,因此他們錯誤地假設在二十次測試中的一次中,結果是顯著的().

xkcd 果凍豆漫畫-“意義重大”

  • 標題:意義重大
  • 懸停文本:“‘所以,呃,我們再次進行了綠色研究,但沒有找到任何鏈接。這可能是一個–’‘關於綠色果凍豆/痤瘡鏈接的研究衝突;推薦更多研究!’”

xkcd 漫畫 882 - “重要”

幽默是一件非常私人的事情——有些人會覺得它很有趣,但對每個人來說可能並不有趣——並且試圖解釋是什麼讓事情變得有趣往往無法傳達有趣,即使他們解釋了潛在的觀點。事實上,並不是所有的 xkcd 都是為了搞笑。然而,許多人確實以一種發人深省的方式提出了重要的觀點,至少有時他們在這樣做時很有趣。(我個人覺得這很有趣,但我很難清楚地解釋究竟是什麼讓我覺得很有趣。我認為部分原因是對可疑甚至可疑結果變成媒體馬戲團的方式的認識(其中另見這個博士漫畫),也許部分是對某些研究可能實際進行的方式的認可——如果通常不是有意識的。)

但是,無論它是否讓您的有趣骨頭髮癢,人們都可以理解這一點。

重點是在某個中等顯著性水平(如 5%)上進行多重假設檢驗,然後公佈結果顯著的假設檢驗。當然,如果你做 20 次這樣的測試,而實際上並沒有發生任何重要的事情,那麼這些測試的預期數量是 1。顯著性水平檢驗,大約有 37% 的機會沒有顯著結果,大約 37% 的機會出現一個,大約 26% 的機會出現多個(我剛剛檢查了確切的答案;它們已經足夠接近了)。

在漫畫中,蘭德爾描繪了 20 次測試,所以這無疑是他的觀點(即使沒有發生任何事情,你也希望獲得一次有意義的測試)。虛構的報紙文章甚至強調了副標題“只有 5% 的巧合機會!”的問題。(如果最終出現在論文中的一項測試是唯一完成的一項,那麼可能就是這種情況。)


當然,還有一個更微妙的問題,即單個研究人員的行為可能會更加合理,但仍然會出現誤報猖獗的問題。假設這些研究人員只進行了 5 次測試,每次都在 1% 的水平上,所以他們發現這樣一個虛假結果的總體機會只有 5% 左右。

到現在為止還挺好。但現在想像一下,有 20 個這樣的研究小組,每個小組都測試他們認為有理由嘗試的隨機顏色子集。或者 100 個研究小組……現在有多少機會像漫畫中的標題一樣?

所以更廣泛地說,漫畫可能更普遍地引用了出版偏見。如果只宣揚顯著的結果,我們就不會聽到數十個小組對綠色軟糖豆一無所獲,只有一個小組發現了。

確實,這是本文中的主要觀點之一,在過去幾個月中一直在新聞中(例如這裡,儘管它是 2005 年的文章)。

對那篇文章的回應強調了複製的必要性。請注意,如果要對已發表的研究進行多次復制,“與痤瘡有關的綠色軟糖”結果將不太可能成立。

(事實上,漫畫的懸停文本巧妙地引用了同一點。)

引用自:https://stats.stackexchange.com/questions/88065

comments powered by Disqus