Multiple-Comparisons

何時糾正多重比較中的 p 值?

  • July 22, 2014

恐怕相關問題沒有回答我的問題。我們評估> 2個分類器(機器學習)的性能。我們的零假設是性能沒有差異。我們執行參數 (ANOVA) 和非參數 (Friedman) 檢驗來評估這個假設。如果它們很重要,我們想找出在事後探索中哪些分類器不同。

我的問題是雙重的:

1)是否有必要在多重比較測試後校正 p 值?“Alphafehler Kumulierung”上的德國維基百科網站表示,只有在對相同數據進行多個假設測試時才會出現問題。在比較分類器 (1,2),(1,3),(2,3) 時,數據僅部分重疊。是否仍然需要更正 p 值?

  1. P 值校正通常在使用 t 檢驗的成對檢驗之後使用。在進行專門的事後測試時是否也有必要,例如 Nemenyi(非參數)或 Tukey 的 HSD 測試?這個答案對 Tukey 的 HSD 說“不”:Tukey HSD 測試是否對多重比較正確?. 是否有規則或者我必須為每個潛在的事後測試查找這個?

謝謝!

對問題 1 的回答

如果您關心犯 I 類錯誤的概率,您需要針對多重比較進行調整。隱喻/思想實驗的簡單組合可能會有所幫助:

想像一下,你想中彩票。奇怪的是,這種彩票給了您 0.05 的中獎機會(即 20 分之一)。M是該彩票中的彩票成本,這意味著您對單次彩票調用的預期回報為M /20。現在更奇怪的是,想像一下,由於未知的原因,這個成本M允許您擁有任意數量的彩票(或至少多於兩張)。想著自己“玩的越多,贏的越多”,你就搶了一堆票。您在抽獎時的預期回報不再是M /20,而是相當大一些。現在將“中彩票”替換為“犯第一類錯誤”。

如果你不關心錯誤,也不關心人們反复嘲弄地把你的注意力轉移到某部關於軟糖的漫畫上,那就繼續吧,不要為多重比較進行調整。

“相同數據”的問題出現在全族糾錯方法(例如 Bonferroni、Holm-Sidák 等)中,因為“族”的概念有些模糊。然而,錯誤發現率方法(例如 Benjamini 和 Hochberg、Benjamini 和 Yeuketeli 等)具有一個特性,即它們的結果在不同的推理組中是穩健的。

對問題 2 的回答

大多數成對測試都需要修正,儘管在所謂的測試中存在風格和學科差異。例如,有些人提到“Bonferroni t檢驗”(這是一個巧妙的技巧,因為 Bonferroni 既沒有開發t檢驗,也沒有開髮用於多重比較的 Bonferroni 調整 :)。我個人對此感到不滿意,因為(1)我想區分進行一組統計測試和調整多重比較以有效地理解我所做的推論,以及(2)當有人出現時一種新的成對檢驗,建立在可靠定義的基礎上,然後我知道我可以對多重比較進行調整。

引用自:https://stats.stackexchange.com/questions/108861

comments powered by Disqus