較小的 p 值是否更有說服力?
我一直在閱讀值、類型 1 錯誤率、顯著性水平、功效計算、效應大小和 Fisher 與 Neyman-Pearson 辯論。這讓我感到有些不知所措。我為文字牆道歉,但我覺得有必要概述一下我目前對這些概念的理解,然後再討論我的實際問題。
從我收集到的,一個-value 只是一種意外的度量,即在假設原假設為真的情況下,獲得結果的概率至少是極端的。費舍爾最初打算將其作為連續測量。
在 Neyman-Pearson 框架中,您預先選擇一個顯著性水平並將其用作(任意)截止點。顯著性水平等於類型 1 錯誤率。它由長期運行頻率定義,即如果您要重複一個實驗 1000 次並且原假設為真,那麼由於抽樣的可變性,其中大約 50 個實驗會產生*顯著影響。*通過選擇顯著性水平,我們以一定的概率保護自己免受這些誤報的影響。-values 傳統上不會出現在這個框架中。
如果我們找到一個-值 0.01 這並不意味著1 類錯誤率是 0.01,1 類錯誤是先驗的。我相信這是 Fisher 與 NP 辯論中的主要論據之一,因為- 值通常報告為 0.05*、0.01**、0.001***。這可能會誤導人們說效果在一定程度上是顯著的-value,而不是某個顯著性值。
我也意識到-value 是樣本大小的函數。因此,它不能用作絕對測量值。一個小的-value 可能指向大樣本實驗中的一個小的、不相關的影響。為了解決這個問題,在確定實驗的樣本量時執行功效/效應量計算非常重要。-values 告訴我們是否有影響,而不是它有多大。見沙利文 2012 年。
我的問題: 我如何調和以下事實:-value 是對驚喜的衡量(更小 = 更有說服力),同時它不能被視為絕對衡量?
我感到困惑的是:我們能否對小-價值比大的?在費雪的意義上,我會說是的,我們更驚訝。在 NP 框架中,選擇較小的顯著性水平意味著我們正在更加強烈地防範誤報。
但另一方面,-值取決於樣本量。它們不是絕對的衡量標準。因此,我們不能簡單地說 0.001593比 0.0439*更重要。*然而,這就是費舍爾的框架所暗示的:我們會對如此極端的價值感到更加驚訝。甚至有人討論了“高度顯著”一詞是用詞不當:將結果稱為“高度顯著”是錯誤的嗎?
我聽說過-某些科學領域的值僅在小於 0.0001 時才被認為是重要的,而在其他領域中,0.01 左右的值已經被認為是非常重要的。
相關問題:
更小-價值觀“更有說服力”?是的,他們當然是。
在 Fisher 框架中,-value 是對反對原假設的證據數量的量化。證據或多或少有說服力;越小-value,越有說服力。請注意,在任何給定樣本量固定的實驗中, 這-value 與效果大小單調相關,正如@Scortchi 在他的回答 (+1) 中很好地指出的那樣。這麼小-值對應於較大的效果大小;當然他們更有說服力!
在 Neyman-Pearson 框架中,目標是獲得二元決策:證據要么是“重要的”,要么不是。通過選擇閾值, 我們保證我們不會有超過誤報。注意不同的人可以有不同的在查看相同的數據時要牢記;也許當我從一個我懷疑的領域讀到一篇論文時,我個人不會認為是“顯著”的結果,例如儘管作者確實稱它們為重要的。我的個人可能設置為或者其他的東西。顯然報導越低-value,它將能夠說服更多持懷疑態度的讀者!因此,再次降低-價值觀更有說服力。
目前的標準做法是結合 Fisher 和 Neyman-Pearson 方法:如果,則結果稱為“顯著”,而-價值被[確切或近似地]報告並用作說服力的衡量標準(通過用星號標記,使用“非常重要”的表達方式等);如果,然後結果被稱為“不顯著”,就是這樣。
這通常被稱為“混合方法”,實際上它是混合的。有些人認為這種混合是不連貫的。我傾向於不同意。為什麼同時做兩件有效的事情是無效的?
進一步閱讀:
- Fisher 和 Neyman-Pearson 的統計測試方法之間的“混合”真的是“不連貫的混搭”嗎?- 我關於“混合”的問題。它引發了一些討論,但我仍然對任何答案都不滿意,併計劃在某個時候回到那個線程。
- 將結果稱為“非常重要”是錯誤的嗎?- 看我昨天的回答,這基本上是說:這沒有錯(但可能有點草率)。
- 為什麼較低的 p 值沒有更多的證據來反對空值?來自 Johansson 2011 的論點——反費舍爾論文的一個例子-values 不提供反對 null 的證據;@Momo 的最佳答案在揭穿這些論點方面做得很好。我對標題問題的回答是:但他們當然是。