較小的數據集更好:這個陳述在統計中是錯誤的嗎?如何正確反駁?
推廣羥氯喹的 Raoult 博士對生物醫學領域的統計數據發表了一些非常有趣的聲明:
這是違反直覺的,但臨床測試的樣本量越小,其結果就越顯著。20 人樣本中的差異可能比 10,000 人樣本中的差異更大。如果我們需要這樣的樣本,就有出錯的風險。有 10,000 人,當差異很小時,有時它們不存在。
這是統計中的錯誤陳述嗎?如果是這樣,那麼在生物醫學領域是否也是錯誤的?我們可以在什麼基礎上通過置信區間正確地反駁它?
多虧了一篇關於 24 名患者數據的文章,Raoult 博士推廣了羥氯喹作為 Covid-19 的治療方法。他的說法被重複了很多次,但主要是在主流媒體上,而不是在科學媒體上。
在機器學習中,SciKit 工作流程指出,在選擇任何模型之前,您需要一個包含至少 50 個樣本的數據集,無論是用於簡單回歸,還是最先進的聚類技術等,這就是為什麼我覺得這句話真的耐人尋味。
編輯:下面的一些答案假設沒有結果偏差。他們處理權力和影響大小的概念。然而,Raoult 博士的數據似乎存在偏差。最引人注目的是刪除死者的數據,因為他們無法提供整個研究期間的數據。
然而,我的問題仍然集中在使用小樣本量的影響上。
我同意這裡的許多其他答案,但認為這種說法比他們想像的還要糟糕。
該聲明是對小型數據集的許多偽劣分析中隱含聲明的顯式版本。這些暗示由於他們在小樣本中發現了顯著結果,因此他們聲稱的結果必須是真實且重要的,因為在小樣本中“更難”找到顯著效果。這種信念是完全錯誤的,因為小樣本中的隨機誤差意味著任何結果的可信度都較低,無論效果大小是大還是小。因此,大而顯著的影響更可能是不正確的大小,更重要的是,它們的方向可能是錯誤的。Andrew Gelman 將這些有用地稱為“S 型”錯誤(估計其符號錯誤)而不是“M 型”錯誤(估計其大小是錯的)。將此與文件抽屜效應(小的、不重要的結果未發布,而大的、重要的結果已發布)結合起來,您將大部分時間陷入複製危機,並浪費大量時間、精力和金錢。
感謝@Adrian 下面從 Gelman 那裡挖掘出一個很好地說明了這一點的數字:
這似乎是一個極端的例子,但這一點與拉烏爾的論點完全相關。