Hypothesis-Testing

較小的 p 值是否更有說服力?

  • February 14, 2015

我一直在閱讀值、類型 1 錯誤率、顯著性水平、功效計算、效應大小和 Fisher 與 Neyman-Pearson 辯論。這讓我感到有些不知所措。我為文字牆道歉,但我覺得有必要概述一下我目前對這些概念的理解,然後再討論我的實際問題。


從我收集到的,一個-value 只是一種意外的度量,即在假設原假設為真的情況下,獲得結果的概率至少是極端的。費舍爾最初打算將其作為連續測量。

在 Neyman-Pearson 框架中,您預先選擇一個顯著性水平並將其用作(任意)截止點。顯著性水平等於類型 1 錯誤率。它由長期運行頻率定義,即如果您要重複一個實驗 1000 次並且原假設為真,那麼由於抽樣的可變性,其中大約 50 個實驗會產生*顯著影響。*通過選擇顯著性水平,我們以一定的概率保護自己免受這些誤報的影響。-values 傳統上不會出現在這個框架中。

如果我們找到一個-值 0.01 這並不意味著1 類錯誤率是 0.01,1 類錯誤是先驗的。我相信這是 Fisher 與 NP 辯論中的主要論據之一,因為- 值通常報告為 0.05*、0.01**、0.001***。這可能會誤導人們說效果在一定程度上是顯著的-value,而不是某個顯著性值。

我也意識到-value 是樣本大小的函數。因此,它不能用作絕對測量值。一個小的-value 可能指向大樣本實驗中的一個小的、不相關的影響。為了解決這個問題,在確定實驗的樣本量時執行功效/效應量計算非常重要。-values 告訴我們是否有影響,而不是它有多大。見沙利文 2012 年

我的問題: 我如何調和以下事實:-value 是對驚喜的衡量(更小 = 更有說服力),同時它不能被視為絕對衡量?

我感到困惑的是:我們能否對小-價值比大的?在費雪的意義上,我會說是的,我們更驚訝。在 NP 框架中,選擇較小的顯著性水平意味著我們正在更加強烈地防範誤報。

但另一方面,-值取決於樣本量。它們不是絕對的衡量標準。因此,我們不能簡單地說 0.001593比 0.0439*更重要。*然而,這就是費舍爾的框架所暗示的:我們會對如此極端的價值感到更加驚訝。甚至有人討論了“高度顯著”一詞是用詞不當:將結果稱為“高度顯著”是錯誤的嗎?

我聽說過-某些科學領域的值僅在小於 0.0001 時才被認為是重要的,而在其他領域中,0.01 左右的值已經被認為是非常重要的。

相關問題:

更小-價值觀“更有說服力”?是的,他們當然是。

在 Fisher 框架中,-value 是對反對原假設的證據數量的量化。證據或多或少有說服力;越小-value,越有說服力。請注意,在任何給定樣本量固定的實驗中, 這-value 與效果大小單調相關,正如@Scortchi 在他的回答 (+1) 中很好地指出的那樣。這麼小-值對應於較大的效果大小;當然他們更有說服力!

在 Neyman-Pearson 框架中,目標是獲得二元決策:證據要么是“重要的”,要么不是。通過選擇閾值, 我們保證我們不會有超過誤報。注意不同的人可以有不同的在查看相同的數據時要牢記;也許當我從一個我懷疑的領域讀到一篇論文時,我個人不會認為是“顯著”的結果,例如儘管作者確實稱它們為重要的。我的個人可能設置為或者其他的東西。顯然報導越低-value,它將能夠說服更多持懷疑態度的讀者!因此,再次降低-價值觀更有說服力。

目前的標準做法是結合 Fisher 和 Neyman-Pearson 方法:如果,則結果稱為“顯著”,而-價值被[確切或近似地]報告並用作說服力的衡量標準(通過用星號標記,使用“非常重要”的表達方式等);如果,然後結果被稱為“不顯著”,就是這樣。

這通常被稱為“混合方法”,實際上它是混合的。有些人認為這種混合是不連貫的。我傾向於不同意。為什麼同時做兩件有效的事情是無效的?

進一步閱讀:

引用自:https://stats.stackexchange.com/questions/137702

comments powered by Disqus