較小的 p 值是否更有說服力？

February 14, 2015

我一直在閱讀值、類型 1 錯誤率、顯著性水平、功效計算、效應大小和 Fisher 與 Neyman-Pearson 辯論。這讓我感到有些不知所措。我為文字牆道歉，但我覺得有必要概述一下我目前對這些概念的理解，然後再討論我的實際問題。

從我收集到的，一個-value 只是一種意外的度量，即在假設原假設為真的情況下，獲得結果的概率至少是極端的。費舍爾最初打算將其作為連續測量。

在 Neyman-Pearson 框架中，您預先選擇一個顯著性水平並將其用作（任意）截止點。顯著性水平等於類型 1 錯誤率。它由長期運行頻率定義，即如果您要重複一個實驗 1000 次並且原假設為真，那麼由於抽樣的可變性，其中大約 50 個實驗會產生*顯著影響。*通過選擇顯著性水平，我們以一定的概率保護自己免受這些誤報的影響。-values 傳統上不會出現在這個框架中。

如果我們找到一個-值 0.01 這並不意味著1 類錯誤率是 0.01，1 類錯誤是先驗的。我相信這是 Fisher 與 NP 辯論中的主要論據之一，因為- 值通常報告為 0.05*、0.01**、0.001***。這可能會誤導人們說效果在一定程度上是顯著的-value，而不是某個顯著性值。

我也意識到-value 是樣本大小的函數。因此，它不能用作絕對測量值。一個小的-value 可能指向大樣本實驗中的一個小的、不相關的影響。為了解決這個問題，在確定實驗的樣本量時執行功效/效應量計算非常重要。-values 告訴我們是否有影響，而不是它有多大。見沙利文 2012 年。

我的問題： 我如何調和以下事實：-value 是對驚喜的衡量（更小 = 更有說服力），同時它不能被視為絕對衡量？

我感到困惑的是：我們能否對小-價值比大的？在費雪的意義上，我會說是的，我們更驚訝。在 NP 框架中，選擇較小的顯著性水平意味著我們正在更加強烈地防範誤報。

但另一方面，-值取決於樣本量。它們不是絕對的衡量標準。因此，我們不能簡單地說 0.001593比 0.0439*更重要。*然而，這就是費舍爾的框架所暗示的：我們會對如此極端的價值感到更加驚訝。甚至有人討論了“高度顯著”一詞是用詞不當：將結果稱為“高度顯著”是錯誤的嗎？

我聽說過-某些科學領域的值僅在小於 0.0001 時才被認為是重要的，而在其他領域中，0.01 左右的值已經被認為是非常重要的。

相關問題：

Fisher 和 Neyman-Pearson 的統計測試方法之間的“混合”真的是“不連貫的混搭”嗎？

何時使用 Fisher 和 Neyman-Pearson 框架？

“p值”的確切值沒有意義嗎？

與 I 類錯誤相關的 p 值的頻率屬性

兩種方法的置信區間與 P 值

為什麼較低的 p 值沒有更多的證據來反對空值？來自 Johansson 2011 的論點（由@amoeba 提供）

更小-價值觀“更有說服力”？是的，他們當然是。

在 Fisher 框架中，-value 是對反對原假設的證據數量的量化。證據或多或少有說服力；越小-value，越有說服力。請注意，在任何給定樣本量固定的實驗中，這-value 與效果大小單調相關，正如@Scortchi 在他的回答 (+1) 中很好地指出的那樣。這麼小-值對應於較大的效果大小；當然他們更有說服力！

在 Neyman-Pearson 框架中，目標是獲得二元決策：證據要么是“重要的”，要么不是。通過選擇閾值, 我們保證我們不會有超過誤報。注意不同的人可以有不同的在查看相同的數據時要牢記；也許當我從一個我懷疑的領域讀到一篇論文時，我個人不會認為是“顯著”的結果，例如儘管作者確實稱它們為重要的。我的個人可能設置為或者其他的東西。顯然報導越低-value，它將能夠說服更多持懷疑態度的讀者！因此，再次降低-價值觀更有說服力。

目前的標準做法是結合 Fisher 和 Neyman-Pearson 方法：如果，則結果稱為“顯著”，而-價值被[確切或近似地]報告並用作說服力的衡量標準（通過用星號標記，使用“非常重要”的表達方式等）；如果，然後結果被稱為“不顯著”，就是這樣。

這通常被稱為“混合方法”，實際上它是混合的。有些人認為這種混合是不連貫的。我傾向於不同意。為什麼同時做兩件有效的事情是無效的？

進一步閱讀：

Fisher 和 Neyman-Pearson 的統計測試方法之間的“混合”真的是“不連貫的混搭”嗎？- 我關於“混合”的問題。它引發了一些討論，但我仍然對任何答案都不滿意，併計劃在某個時候回到那個線程。

將結果稱為“非常重要”是錯誤的嗎？- 看我昨天的回答，這基本上是說：這沒有錯（但可能有點草率）。

為什麼較低的 p 值沒有更多的證據來反對空值？來自 Johansson 2011 的論點——反費舍爾論文的一個例子-values 不提供反對 null 的證據；@Momo 的最佳答案在揭穿這些論點方面做得很好。我對標題問題的回答是：但他們當然是。

引用自：https://stats.stackexchange.com/questions/137702

comments powered by Disqus

較小的 p 值是否更有說服力？

相關問答

當您擁有全部人口時，是否適合在數據上放置“誤差線”？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

估計參數函數周圍的置信區間

我可以比較 p 值嗎？

計算兩個獨立比例之差的標準誤

如何從二元邏輯回歸模型中獲得兩個概率之間差異的置信區間？