Hypothesis-Testing

如果檢驗統計量的分佈是雙峰的,那麼 p 值是否意味著什麼?

  • March 19, 2014

P 值定義為獲得至少與觀察到的一樣極端的檢驗統計量的概率,假設零假設為真。換句話說,

但是如果檢驗統計量是雙峰分佈的呢?p 值在這種情況下意味著什麼?例如,我將在 R 中模擬一些雙峰數據:

set.seed(0)
# Generate bi-modal distribution
bimodal <- c(rnorm(n=100,mean=25,sd=3),rnorm(n=100,mean=100,sd=5)) 
hist(bimodal, breaks=100)

在此處輸入圖像描述

假設我們觀察到一個測試統計值 60。在這裡我們從圖片中知道這個值是非常不可能的。所以理想情況下,我想要一個我使用的統計程序(比如 p 值)來揭示這一點。但是如果我們按照定義計算 p 值,我們會得到一個相當高的 p 值

observed <- 60

# Get P-value
sum(bimodal[bimodal >= 60])/sum(bimodal)
[1] 0.7991993

如果我不知道分佈,我會得出結論,我觀察到的只是隨機機會。但我們知道這不是真的。

我想我的問題是:為什麼在計算 p 值時,我們要計算“至少與觀察值一樣極端”的值的概率?如果我遇到類似於我上面模擬的情況,替代解決方案是什麼?

使測試統計“極端”的原因取決於您的替代方案,該替代方案對樣本空間施加了排序(或至少是部分排序) - 您試圖拒絕那些最一致的案例(在通過測試統計測量的意義上)替代方案。

當你真的沒有其他選擇來給你一個最一致的東西時,你基本上就剩下了給出排序的可能性,這在 Fisher 的精確檢驗中最常見。在那裡,空值下的結果概率(2x2 表)對測試統計量進行排序(因此“極端”是“低概率”)。

如果您處於雙峰零分佈的最左側(或最右側,或兩者)與您感興趣的替代類型相關聯的情況下,您不會試圖拒絕 60 的檢驗統計量。但如果您處於沒有類似選擇的情況下,那麼 60不尋常的 - 它的可能性很小;值 60*與您的模型不一致,*會導致您拒絕。

[這會被一些人視為費舍爾假設檢驗和內曼-皮爾遜假設檢驗之間的主要區別之一。通過引入一個明確的替代方案和一個似然,零下的低可能性不一定會導致您拒絕 Neyman-Pearson 框架(只要它與替代方案相比也表現相對較好),而對於 Fisher,你真的沒有其他選擇,而 null 下的可能性是你感興趣的東西。]

我並不是說這兩種方法是對還是錯——你自己去弄清楚你尋求權力反對什麼樣的選擇,無論是特定的選擇,還是任何在 null 下不太可能的選擇。一旦你知道你想要什麼,其餘的(包括“至少是極端的”意味著什麼)幾乎都隨之而來。

引用自:https://stats.stackexchange.com/questions/90583

comments powered by Disqus