Hypothesis-Testing

ASA 討論了限制𝑝pp-values - 有哪些選擇?

  • March 8, 2016

我們已經有多個線程標記為p 值這揭示了對他們的許多誤解。十個月前,我們有一個關於“被禁止”的心理期刊的帖子-values,現在美國統計協會(2016 年)表示,通過我們的分析,我們“不應該以計算-價值”。

美國統計協會 (ASA) 認為,科學界可以從一份正式聲明中受益,該聲明闡明了正確使用和解釋數據的幾個廣泛同意的原則。-價值。

委員會列出了其他方法作為可能的替代方案或補充-價值觀:

鑑於普遍的誤用和誤解 -values,一些統計學家更喜歡補充甚至替換

  • 與其他方法的值。這些包括強調估計而不是測試的方法,例如置信度、可信度或預測區間;貝葉斯方法;證據的替代措施,例如似然比或貝葉斯因子;以及其他方法,例如決策理論建模和錯誤發現率。所有這些措施和方法都依賴於進一步的假設,但它們可能更直接地解決效應的大小(及其相關的不確定性)或假設是否正確。

所以讓我們想像一下- 重視現實。ASA 列出了一些可以用來代替的方法-values,但為什麼它們更好?對於使用過-他一生的價值觀?我想這類問題出現在後期——-重視現實,所以也許讓我們嘗試領先他們一步。可以開箱即用的合理替代方案是什麼?為什麼這種方法應該說服您的首席研究員、編輯或讀者?

正如這篇後續博客文章所暗示的,- 價值觀的簡單性無與倫比:

p 值只需要一個統計模型來支持零假設下的統計行為。即使替代假設的模型用於選擇“好的”統計量(將用於構建 p 值),該替代模型也不一定要正確才能使 p 值有效,並且有用(即:在所需級別控制 I 類錯誤,同時提供一些能力來檢測實際效果)。相比之下,其他(奇妙而有用的)統計方法,如似然比、效應大小估計、置信區間或貝葉斯方法,都需要假設模型來支持更廣泛的情況,而不僅僅是在測試的空值下。

它們是,還是不是真的,我們可以很容易地替換它們?

我知道,這很廣泛,但主要問題很簡單:什麼是最好的(以及為什麼),現實生活中的替代品- 可以用作替代品的值?


ASA(2016 年)。ASA 統計意義聲明和-價值觀。 美國統計學家。(在新聞)

我將把這個答案集中在有什麼替代方案的具體問題上 $ p $ -價值觀。

與 ASA 聲明(作為補充材料)一起發表的討論文件有21 篇:Naomi Altman、Douglas Altman、Daniel J. Benjamin、Yoav Benjamini、Jim Berger、Don Berry、John Carlin、George Cobb、Andrew Gelman、Steve Goodman、 Sander Greenland、John Ioannidis、Joseph Horowitz、Valen Johnson、Michael Lavine、Michael Lew、Rod Little、Deborah Mayo、Michele Millar、Charles Poole、Ken Rothman、Stephen Senn、Dalene Stangl、Philip Stark 和 Steve Ziliak(其中一些人一起寫作) ; 我列出所有以供將來搜索)。這些人可能涵蓋了所有關於 $ p $ -值和統計推斷。

我瀏覽了所有 21 篇論文。

不幸的是,他們中的大多數都沒有討論任何真正的替代方案,即使大多數是關於限制、誤解和其他各種問題的 $ p $ -values(為保護 $ p $ 值,參見 Benjamini、Mayo 和 Senn)。這已經表明,替代品(如果有的話)不容易找到和/或捍衛。

因此,讓我們看一下 ASA 聲明本身中給出的“其他方法”列表(如您的問題中所引用的):

[其他方法] 包括強調估計而不是測試的方法,例如置信度、可信度或預測區間;貝葉斯方法;證據的替代措施,例如似然比或貝葉斯因子;以及其他方法,例如決策理論建模和錯誤發現率。

  1. 置信區間

置信區間是一種常客工具,與 $ p $ -價值觀;報告置信區間(或一些等價物,例如均值 $ \pm $ 均值的標準誤)連同 $ p $ -value 幾乎總是一個好主意。

一些人(不在 ASA 爭論者中)建議置信區間應該取代 $ p $ -價值觀。這種方法最直言不諱的支持者之一是 Geoff Cumming,他稱其為新統計數據(我覺得這個名字令人震驚)。有關詳細評論,請參見 Ulrich Schimack 的這篇博客文章:對卡明 (2014) 新統計的批判性評論:將舊統計作為新統計轉售。另請參閱我們無法在Uri Simonsohn 的實驗室博客文章中研究效果大小以獲取相關點。

另請參閱此線程(以及我在其中的回答)關於 Norm Matloff 的類似建議,我認為在報告 CI 時,人們仍然希望擁有 $ p $ - 值也報告了:什麼是 p 值有用的好的、令人信服的例子?

然而,其他一些人(也不是 ASA 的爭論者)認為,置信區間作為一種常客工具,與 $ p $ -values,也應該被處理掉。參見,例如,Morey 等人。2015,在評論中由@Tim 鏈接的置信區間中的置信謬誤。這是一個非常古老的辯論。

  1. 貝葉斯方法

(我不喜歡 ASA 語句如何制定列表。可信區間和貝葉斯因子與“貝葉斯方法”分開列出,但它們顯然是貝葉斯工具。所以我在這裡將它們一起計算。)

  • 關於貝葉斯與常客辯論的大量且非常固執己見的文獻。例如,請參閱這個最近的主題以獲得一些想法:什麼時候(如果有的話)頻率論方法實質上比貝葉斯方法更好?如果一個人有很好的信息先驗,貝葉斯分析是完全有意義的,每個人都會很樂意計算和報告 $ p(\theta|\text{data}) $ 或者 $ p(H_0:\theta=0|\text{data}) $ 代替 $ p(\text{data at least as extreme}|H_0) $ ——可惜,人們通常沒有好的先驗。一位實驗者記錄了 20 隻老鼠在一種情況下做某事,20 隻老鼠在另一種情況下做同樣的事情;預測是前者的表現將超過後者的表現,但沒有人願意或確實能夠對錶現差異做出明確的先驗。(但請參閱@FrankHarrell 的回答,他主張使用“懷疑先驗”。)
  • 即使沒有任何信息先驗,頑固的貝葉斯主義者也建議使用貝葉斯方法。最近的一個例子是Krushke,2012,貝葉斯估計取代了 $ t $ -test,簡寫為 BEST。這個想法是使用具有弱無信息先驗的貝葉斯模型來計算感興趣效應的後驗(例如,組差異)。與頻率論推理的實際差異似乎通常很小,據我所知,這種方法仍然不受歡迎。請參閱什麼是“無信息先驗”?我們能擁有一個真正沒有信息的人嗎?討論什麼是“無信息”(回答:沒有這樣的事情,因此存在爭議)。
  • 另一種方法可以追溯到 Harold Jeffreys,它基於貝葉斯檢驗(與貝葉斯估計相反)並使用貝葉斯因子。更有說服力和多產的支持者之一是 Eric-Jan Wagenmakers,他近年來發表了很多關於這個主題的文章。這種方法的兩個特點在這裡值得強調。首先,請參閱Wetzels 等人,2012,A Default Bayesian Hypothesis Test for ANOVA Designs,以說明這種貝葉斯檢驗的結果在多大程度上取決於備擇假設的具體選擇 $ H_1 $ 以及它所假設的參數分佈(“先驗”)。其次,一旦選擇了“合理的”先驗(Wagenmakers 宣傳 Jeffreys 所謂的“默認”先驗),結果貝葉斯因子通常與標準非常一致 $ p $ -values,請參見Marsman & Wagenmakers 預印本中的此圖:

貝葉斯因子與 p 值

因此,雖然 Wagenmakers 等人。繼續堅持 $ p $ -價值觀存在嚴重缺陷,貝葉斯因子是要走的路,人們不得不懷疑……(公平地說,Wetzels 等人 2011 年的觀點是 $ p $ - 值接近 $ 0.05 $ 貝葉斯因子僅表明反對零的證據非常弱;但請注意,這可以在頻率論範式中輕鬆處理,只需使用更嚴格的 $ \alpha $ ,無論如何,很多人都在提倡的東西。)

Wagenmakers 等人最受歡迎的論文之一。為貝葉斯因子辯護的是 2011 年,為什麼心理學家必須改變他們分析數據的方式:以 psi 為例,他認為臭名昭著的 Bem 關於預測未來的論文如果只使用貝葉斯因子,就不會得出錯誤的結論的 $ p $ -價值觀。請參閱 Ulrich Schimmack 的這篇深思熟慮的博客文章,以獲得詳細的(並且恕我直言令人信服)的反駁論點:為什麼心理學家不應該改變他們分析數據的方式:魔鬼在默認的先驗中。

另請參閱Uri Simonsohn的“默認貝葉斯檢驗對小效應有偏見”博客文章。

有關貝葉斯估計與貝葉斯檢驗的進一步討論,請參閱貝葉斯參數估計或貝葉斯假設檢驗?以及其中的鏈接。

  1. 最小貝葉斯因子

在 ASA 的爭論者中,Benjamin & Berger 和 Valen Johnson 明確提出了這一點(僅有的兩篇論文都是關於提出具體替代方案的)。他們的具體建議有些不同,但在精神上是相似的。

  • Berger 的想法可以追溯到Berger & Sellke 1987 年,直到去年,Berger、Sellke 和合作者還發表了許多論文來詳細闡述這項工作。這個想法是,在一個尖峰和平板之前,其中點為空 $ \mu=0 $ 假設得到概率 $ 0.5 $ 和所有其他值 $ \mu $ 得到概率 $ 0.5 $ 左右對稱分佈 $ 0 $ (“局部替代”),然後是最小後驗 $ p(H_0) $ 在所有局部替代方案中,即最小貝葉斯因子,遠高於 $ p $ -價值。這是(備受爭議的)主張的基礎,即 $ p $ - 值“誇大證據”反對空值。建議是使用貝葉斯因子的下限來支持空值而不是 $ p $ -價值; 在一些廣泛的假設下,這個下限結果由下式給出 $ -ep\log(p) $ ,即 $ p $ -值有效地乘以 $ -e\log(p) $ 這是大約的一個因素 $ 10 $ 到 $ 20 $ 對於常見的範圍 $ p $ -價值觀。這種方法也得到了 Steven Goodman 的認可。

稍後更新:看一個漂亮的卡通片,用簡單的方式解釋這些想法。

更晚的更新:參見Held & Ott, 2018, On $ p $ -值和貝葉斯因子,用於全面審查和進一步分析轉換 $ p $ -值最小貝葉斯因子。這是那裡的一張桌子:

最小貝葉斯因子

有關 Johnson 論文的簡短評論,請參閱Andrew Gelman 和 @Xi’an在 PNAS 中的回复。對於 Berger & Sellke 1987 的反駁,請參見Casella & Berger 1987(不同的 Berger!)。在 APA 討論文件中,Stephen Senn 明確反對以下任何一種方法:

錯誤概率不是後驗概率。當然,統計分析遠不止這些 $ P $ -值,但它們應該被單獨留下,而不是以某種方式變形以成為二等貝葉斯後驗概率。

另請參閱 Senn 論文中的參考資料,包括 Mayo 博客中的參考資料。

  1. ASA 聲明將“決策理論建模和錯誤發現率”列為另一種選擇。我不知道他們在說什麼,我很高興在 Stark 的討論文件中看到這一點:

“其他方法”部分忽略了這樣一個事實,即其中一些方法的假設與 $ p $ -價值觀。確實,有些方法使用 $ p $ -值作為輸入(例如,錯誤發現率)。


我非常懷疑是否有任何東西可以替代 $ p $ - 實際科學實踐中的價值觀,使得經常與 $ p $ -值(複製危機, $ p $ -黑客攻擊等)會消失。任何固定的決策程序,例如貝葉斯決策程序,都可能以與 $ p $ -值可以是 $ p $ -hacked(有關此問題的一些討論和演示,請參閱Uri Simonsohn 的這篇 2014 年博客文章)。

引用 Andrew Gelman 的討論文件:

總之,我同意 ASA 關於 $ p $ -價值觀,但我覺得問題更深,解決辦法不是改革 $ p $ -值或用其他一些統計摘要或閾值代替它們,而是朝著更大程度地接受不確定性和擁抱變化的方向發展。

來自斯蒂芬森:

簡而言之,問題較少 $ P $ -價值觀本身,但將它們作為偶像。換一個假神也無濟於事。

以下是科恩如何將其放入他著名且被高度引用(3.5k 引用)的 1994 年論文地球是圓的( $ p<0.05 $ )他強烈反對 $ p $ -價值觀:

[…] 不要尋找 NHST 的魔法替代品,用其他客觀的機械儀式來代替它。它不存在。

引用自:https://stats.stackexchange.com/questions/200500

comments powered by Disqus