Hypothesis-Testing

什麼是 p 值有用的好的、令人信服的例子?

  • March 11, 2016

我在標題中的問題是不言自明的,但我想給它一些背景信息。

ASA 本週早些時候發布了一份“關於 p 值:上下文、過程和目的”的聲明,概述了對 p 值的各種常見誤解,並敦促在沒有上下文和思考的情況下不要使用它(可以說任何統計方法,真的)。

針對 ASA,Matloff 教授寫了一篇博客文章,標題為:150 年後,ASA 對 p 值說不。然後本傑明教授(和我)寫了一篇題為“這不是 p 值的錯——對最近 ASA 聲明的反思”的回复帖子。作為回應,馬特洛夫教授在後續帖子中問道

我希望看到 [… is] —**一個很好的、令人信服的例子,其中 p 值很有用。**這真的必須是底線。

引用他的兩個主要論點來反對-價值:

對於大樣本,顯著性檢驗會突襲與零假設的微小、不重要的偏離。

在現實世界中幾乎沒有零假設是正確的,因此對它們進行顯著性檢驗是荒謬和奇怪的。

我對其他經過交叉驗證的社區成員對這個問題/論點的看法以及對它的良好回應非常感興趣。

我將考慮 Matloff 的兩個觀點:

對於大樣本,顯著性檢驗會突襲與零假設的微小、不重要的偏離。

這裡的邏輯是,如果有人報告非常重要,那麼僅從這個數字我們就不能說效果是大而重要的還是無關緊要的小(就像大)。我覺得這個論點很奇怪,根本無法與之聯繫,因為我從未見過一項研究會報告- 值而不報告[一些等效的]效應大小。例如,我讀過的研究會說(並且通常在圖表上顯示)A 組有這樣那樣的平均值,B 組有這樣那樣的平均值,它們與這樣那樣有顯著不同-價值。我顯然可以自己判斷A和B之間的差異是大是小。

(在評論中,@RobinEkman 向我指出了 Ziliak 和 McCloskey(1996 年2004 年)的幾項被高度引用的研究,他們觀察到大多數經濟學論文都在宣傳某些效應的“統計意義”,而沒有過多關注效應大小和它的“實際意義”(Z&MS 認為,這通常是微不足道的)。這顯然是不好的做法。但是,正如@MatteoS 下面解釋的那樣,總是報告效應大小(回歸估計),所以我的論點成立。) 2. >

在現實世界中幾乎沒有零假設是正確的,因此對它們進行顯著性檢驗是荒謬和奇怪的。

這種擔憂也經常被表達出來,但在這裡我又無法真正理解它。重要的是要認識到研究人員不會增加他們的 無止境。在我熟悉的神經科學分支中,人們會用或許,比如說,老鼠。如果看不到效果,那麼結論是效果不夠大,不足以引起人們的興趣。我認識的沒有人會繼續繁殖、訓練、記錄和犧牲大鼠表明存在一些統計學上顯著但微小的影響。儘管幾乎沒有真正的影響完全為零,但確實有許多實際影響足夠小,可以通過合理的研究人員實際使用的合理樣本量來檢測,以行使他們的良好判斷力*。*

(有一個合理的擔憂是樣本量通常不夠大,並且許多研究的效力不足。因此,也許許多領域的研究人員更應該瞄準,比如說,代替. 儘管如此,無論樣本量是多少,它都會限制研究有能力檢測到的效應量。)

此外,我不認為我同意幾乎沒有零假設是正確的,至少在實驗性隨機研究中不是這樣(與觀察性研究相反)。兩個原因:

  • 很多時候,正在測試的預測是有方向性的;研究人員旨在證明某些影響是積極的. 按照慣例,這通常是通過假設點為空的雙邊測試來完成的但事實上,這是一個試圖拒絕的片面測試. (@CliffAB 的回答,+1,提出了一個相關的觀點。)這當然是真的。
  • 甚至在談論“零”這一點 null,我不明白為什麼它們從來都不是真的。有些事情與其他事情沒有因果關係。看看過去幾年未能複制的心理學研究:人們對未來的感覺;排卵時穿紅色衣服的女性;用影響步行速度的與老年相關的詞啟動;等等。很可能這裡根本沒有因果關係,所以真正的影響正好為零。

Norm Matloff 本人建議使用置信區間而不是-values,因為它們顯示了效果大小。置信區間是好的,但請注意置信區間與-value:報告一個特定覆蓋率值的置信區間,例如. 看到一個置信區間並沒有告訴我一個有多寬置信區間將是。但是一個單-value 可以與任何值進行比較不同的讀者可能會想到不同的字母。

換句話說,我認為對於喜歡使用置信區間的人來說,-value 是要報告的有用且有意義的附加統計信息。


我想給出一個關於實際用途的長引用- 來自我最喜歡的博主 Scott Alexander 的價值觀;他不是統計學家(他是精神病學家),但在閱讀心理/醫學文獻和仔細檢查其中的統計數據方面擁有豐富的經驗。這句話來自他關於我強烈推薦的假巧克力研究的博客文章。強調我的。

[…] 但是假設我們不允許這樣做-價值觀。我所做的只是告訴你“是的,有一項針對 15 人的研究發現巧克力有助於改善胰島素抵抗”,然後你就當著我的面笑。效應大小應該對此有所幫助。但假設我告訴你“有一項針對 15 人的研究發現巧克力有助於改善胰島素抵抗。效果大小是。”我對這是否與隨機噪聲一致沒有任何直覺。你呢?好吧,然後他們說我們應該報告置信區間。效果大小是, 和置信區間. 好的。所以我檢查了置信區間的下限,我發現它與零不同。但現在我沒有超越-價值。我只是通過自己對它進行某種笨拙的計算來使用 p 值——“置信區間不包括零”與“-值小於”.

(想像一下,雖然我知道置信區間不包括零,我開始想知道是否置信區間確實如此。如果只有一些統計數據可以給我這個信息!)

但不會擺脫-值防止“-黑客”?也許吧,但它只會讓位於“d-hacking”。你不認為你可以測試二十種不同的代謝參數並只報告具有最高效應量的一個嗎?唯一的區別是 p-hacking 是完全透明的——如果您進行 20 次測試並報告的,我知道你是個白痴——但 d-hacking 將是高深莫測的。如果你做了 20 次測試並報告其中一個得到了,印象深刻嗎?[…]

但不會從-影響大小的值阻止人們對仍然具有統計意義的微小影響大做文章?是的,但**有時我們想對仍然具有統計意義的微小影響大做文章!**假設可口可樂正在測試一種新的產品添加劑,並在大型流行病學研究中發現它每年會導致每十萬人額外死亡一個。這是一個大約為零的效應大小,但它可能仍然具有統計意義。由於全世界每年約有 10 億人喝可樂,那就是一萬人死亡。如果可口可樂說“不,效果太小,不值得考慮”,他們會殺死幾乎兩個希特勒級別的人。


有關各種替代方案的進一步討論-值(包括貝葉斯值),請參閱我在ASA 中的回答討論了-values - 有哪些選擇?

引用自:https://stats.stackexchange.com/questions/201146

comments powered by Disqus