Statistical-Significance

“p值”的確切值沒有意義嗎?

  • April 24, 2014

我在 2009 年與一位統計學家討論過,他說 p 值的確切值是無關緊要的:唯一重要的是它是否顯著。即一個結果不能比另一個更重要;例如,您的樣本要么來自同一人群,要么不來自同一人群。

我對此有些疑慮,但我也許可以理解這種意識形態:

  1. 5% 的閾值是任意的,即 p = 0.051 不顯著而 p = 0.049 不應該真正改變您的觀察或實驗的結論,儘管一個結果顯著而另一個結果不顯著。

我現在提出這個問題的原因是我正在攻讀生物信息學碩士學位,並且在與該領域的人交談之後,似乎有一種堅定的動力來為他們所做的每組統計數據獲得準確的 p 值。例如,如果他們“實現”了 p < 1.9×10 -12的 p 值,他們想證明他們的結果有多重要,並且這個結果信息量很大。這個問題以如下問題為例:為什麼我不能得到一個小於 2.2e-16 的 p 值?,他們想要記錄一個值,表明僅憑偶然性,這將遠小於萬億分之一。但我認為證明這一結果的發生率將低於萬億分之一,而不是十億分之一。 2. 我可以理解 p < 0.01 表明發生這種情況的可能性小於 1%,而 p < 0.001 表明這樣的結果比上述 p 值更不可能,但如果你得出的結論完全不同的?畢竟它們都是顯著的 p 值。我能想到的想要記錄精確 p 值的唯一方法是在 Bonferroni 校正期間,其中閾值由於進行的比較次數而變化,從而減少 I 型錯誤。但即便如此,為什麼要顯示比閾值顯著性小 12 個數量級的 p 值? 3. 並且應用 Bonferroni 校正本身是不是也有點武斷?從某種意義上說,最初的校正被視為非常保守,因此可以選擇其他校正來訪問觀察者可以用於多重比較的顯著性水平。但正因為如此,根據研究人員想要使用的統計數據,某事變得重要且本質上可變的點不是。統計數據應該對解釋如此開放嗎?

總之,統計數據不應該不那麼主觀(儘管我猜它的主觀性是多元系統的結果),但最終我想要澄清一下:有什麼東西比其他東西更重要嗎?p < 0.001 是否足以記錄準確的 p 值?

  1. 類型 1 / 錯誤拒絕錯誤率不是完全任意的,但是是的,它很接近。這有點可取因為它在認知上不那麼複雜(人們喜歡整數和五的倍數)。這是懷疑主義和實用性之間的一個不錯的折衷,雖然可能有點過時——現代方法和研究資源可能會制定更高的標準(即更低的值)更可取,如果必須有標準(約翰遜,2013 年)。

IMO,比閾值的選擇更大的問題是在沒有必要或沒有幫助的情況下使用閾值的經常未經審查的選擇。在必須做出實際選擇的情況下,我可以看到它的價值,但許多基礎研究並不需要僅僅因為給定樣本的反對證據不足而決定放棄證據並放棄拒絕無效的前景幾乎任何合理的閾值。然而,這項研究的許多作者都覺得有義務按照慣例這樣做,並且不舒服地抵制它,發明了諸如“邊際”意義之類的術語來乞求關注,因為他們可以感覺到它正在溜走,因為他們的觀眾通常不在乎s. 如果您在此處查看其他問題價值解釋,你會看到很多關於價值解釋的分歧二進制值fail to/reject關於 null 的決定。 2. 完全不同——不。有意義的不同——也許吧。顯示一個可笑的小的一個原因value 是暗示有關效果大小的信息。當然,出於幾個技術原因,僅報告效果大小會好得多,但作者通常不會考慮這種替代方案,不幸的是,觀眾也可能不太熟悉它。在沒有人知道如何報告效應大小的零假設世界中,人們可能最常猜測較小的效應大小是正確的意味著更大的影響。不管這個零假設的世界在多大程度上比相反的更接近現實,也許準確報告是有一些價值的s 因為這個原因。請理解,這點純屬魔鬼的鼓吹……

精確的另一種用途我通過在這裡進行非常相似的辯論了解到的 s 是似然函數的指數。請參閱 Michael Lew 的評論和文章(Lew,2013 年)在我對“容納 p 值的根深蒂固的觀點”的回答中鏈接。 3. 我不認為 Bonferroni 校正真的是同樣的武斷。它糾正了我認為我們同意至少接近完全任意的閾值,因此它不會失去任何基本的任意性,但我認為它不會給等式增加任何任意性。修正以合乎邏輯、務實的方式定義,對較大或較小修正的微小變化似乎需要相當複雜的論據來證明它們不僅僅是武斷的,而我認為主張調整無需克服其中任何吸引人但簡單的邏輯。

如果有的話,我認為價值觀應該更加開放!即,null 是否真的比替代方案更有用應該不僅僅取決於反對它的證據,包括獲得更多信息的成本以及由此獲得的更精確知識的附加增量價值。這本質上是費舍爾無門檻的想法,AFAIK 就是這一切的開始。請參閱“關於 p 值,為什麼是 1% 和 5%?為什麼不是 6% 或 10%?

如果fail to/reject危機不是從一開始就強迫零假設,那麼對統計顯著性的更持續理解肯定會承認持續增加顯著性的可能性。在統計顯著性的二分法中(我認為這有時被稱為 Neyman-Pearson 框架;參見Dienes,2007 年),不,任何重要的結果都與下一個結果一樣重要——不多也不少。這個問題可能有助於解釋這個原理:“為什麼在原假設下 p 值是均勻分佈的? ”至於有多少個零是有意義且值得報告的,我推薦 Glen_b 對這個問題的回答:“小- 值被報告?(為什麼 R 會在 2.22e-16 上設置最小值?) ”——這比你在 Stack Overflow 上鍊接的那個問題的答案要好得多!

參考資料

引用自:https://stats.stackexchange.com/questions/94974

comments powered by Disqus