Hypothesis-Testing
p 值的微妙之處:更大等於與更大
當我閱讀 Wassermann 的《所有統計》一書時,我注意到 p 值的定義中有一個微妙之處,我無法理解。非正式地,Wassermann 將 p 值定義為
[..] 概率(在) 觀察到的檢驗統計量值與實際觀察到的值相同或更極端。
重點補充。更正式的相同(定理 10.12):
假設尺寸測試的形式
拒絕當且僅當.
然後,
在哪裡是觀察值. 如果然後
此外,Wassermann 定義了 Pearson 的 p 值測試(和其他類似的測試)為:
我想要求澄清的部分是更大的平等() 簽入第一個和更大的 () 在第二個定義中籤名。我們為什麼不寫, 哪個會匹配 " same as or moreextreme?“的第一個引號?
這是否非常方便,因此我們將 p 值計算為? 我注意到 R 也將定義與簽署,例如,在
chisq.test
。
“作為或更極端”是正確的。
那麼,正式地,如果分佈使得獲得檢驗統計量本身的概率為正,則該概率(以及任何同樣極端的情況,例如另一條尾部的相應值)應該包含在 p 值中。
當然,對於連續統計,完全相等的概率為 0。如果我們說沒有區別或者.