為什麼將 p 值稱為 P(Data | Hypothesis/Model)？

April 9, 2020

正如標題所示，為什麼將 p 值稱為 P(Data | Hypothesis/Model) 而不是 P(Hypothesis | Data)？兩者不應該一樣嗎？為什麼是 P（數據 | 假設）！= P（假設 | 數據）？這裡有什麼我遺漏的邏輯推理嗎？

你提出的等價性代表了一個基本的（並且經常犯的）錯誤，美國統計協會一段時間以來一直試圖消除這個錯誤。參見Wasserstein、Schirm 和 Lazar (2019)的聲明。

您有一個數據集，但有多個相互競爭的假設。人們可能分配給一個給定假設的概率應該反映每個假設相對於競爭對手的證據的相對強度。p 值本身與此完全不同。

當您查看生成低 p 值的假設檢驗時，p 值代表假設的概率似乎是合理的。但想得更籠統。想像一個假設檢驗，涉及一個帶有一個參數的簡單假設。該參數的值是連續的，因此該值位於連續統一體上。有一個 p 值與該連續統一體上無數不同值中的每一個都對應，其中一些 p 值會非常高，非常接近 1.0。連續統一體代表參數值的所有可能性。當我們對一個事件的所有概率求和時，總和應該是 1。但是對所有這些 p 值求和會產生一個比 1 大得多的數字。因此，p 值不是每個不同值的概率參數正確或正確。

引用自：https://stats.stackexchange.com/questions/459503

為什麼將 p 值稱為 P(Data | Hypothesis/Model)？

相關問答

統計測試“穩健”意味著什麼？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

離散變量和連續變量。定義是什麼？

一次會議有 12 名員工。假設有 8 名員工是女性，那麼所有員工都是女性的概率是多少？[關閉]

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著