具有不對稱零分佈的雙尾檢驗中的 P 值
我的情況如下:我想通過蒙特卡洛研究來比較-估計參數的統計顯著性的兩個不同測試的值(null 是“無影響 - 參數為零”,隱含的替代方案是“參數不為零”)。測試A是標準的“均值相等的獨立雙樣本 t 檢驗”,在零值下具有相等的方差。
測試B我自己構建的。這裡,使用的零分佈是非對稱的通用離散分佈。但我在Rohatgi & Saleh (2001, 2nd ed, p. 462)中發現了以下評論
“如果分佈不對稱,則-value 在兩側的情況下沒有很好的定義,儘管許多作者建議將一側加倍-價值”。
作者沒有進一步討論這個問題,也沒有評論“許多作者的建議”以加倍片面-價值。(這就產生了一個問題“加倍-哪一方的價值?為什麼是這一邊而不是另一邊?)
我無法找到關於這整個問題的任何其他評論、意見或結果。我知道,對於非對稱分佈,雖然我們可以考慮關於參數值的零假設周圍對稱的區間,但我們不會有第二種常見的對稱性,即概率質量分配的對稱性。但我不明白為什麼這會使 -值“未明確定義”。就個人而言,通過對估計量的值使用圍繞零假設對稱的區間,我認為“零分佈將產生等於或超出該區間邊界的值的概率是 XX”沒有*定義問題。*一方面的概率質量與另一側的概率質量不同,這一事實似乎不會造成麻煩,至少對我而言。但更有可能的是,Rohatgi & Saleh 知道一些我不知道的事情。
所以這是我的問題:在什麼意義上當空分佈不對稱時,在雙邊測試的情況下,-value 是(或可以是)“定義不明確”?
一個可能很重要的說明:我更多地以費舍爾精神來處理這個問題,我並不是試圖獲得內曼 - 皮爾森意義上的嚴格決策規則。我把它留給測試的用戶使用-價值信息以及任何其他信息以進行推斷。
如果我們看一下 2x2 精確測試,並將其作為我們的方法,那麼“更極端”的情況可能會直接通過“較低可能性”來衡量。(Agresti[1] 提到了許多作者為2x2 Fisher 精確檢驗的這種情況計算兩個尾 p 值的方法,其中這種方法是專門討論為“最流行”的三種方法之一。)
對於連續(單峰)分佈,您只需在另一條尾部中找到與樣本值具有相同密度的點,並且在另一條尾部中具有相等或較低可能性的所有內容都計入您的 p 值計算中。
對於尾部單調非遞增的離散分佈,它幾乎一樣簡單。您只需計算與您的樣本具有相同或更低可能性的所有事物,考慮到我添加的假設(使“尾巴”一詞符合這個想法),提供了一種解決方法。
如果您熟悉 HPD 區間(同樣,我們正在處理單峰),這基本上就像將所有內容都放在一個開放的 HPD 區間之外,該區間由您的樣本統計量限制在一條尾巴上。
[重申一下——這是我們在這裡等同的空值下的可能性。]
所以至少在單峰情況下,模仿Fisher的精確檢驗似乎很簡單,並且仍然談論兩條尾巴。
但是,您可能並不打算以這種方式調用費舍爾精確檢驗的精神。
因此,暫時不考慮是什麼讓事情變得“一樣,或更極端”的想法,讓我們稍微朝內曼 - 皮爾森的結局走一點。它可以幫助(在測試之前!)為在某個通用級別進行的測試定義拒絕區域 $ \alpha $ (我並不是說你必須從字面上計算一個,只是你將如何計算一個)。一旦你這樣做了,為你的案例計算兩個尾 p 值的方法應該會變得很明顯。
即使在通常的似然比檢驗之外進行檢驗,這種方法也很有價值。對於某些應用程序,弄清楚如何在不對稱置換測試中計算 p 值可能會很棘手……但如果您首先考慮拒絕規則,它通常會變得更加簡單。
通過方差 F 檢驗,我注意到“雙尾 p 值”可以為我認為正確的方法提供完全不同的 p 值。[例如,我堅持認為,您將哪個組稱為“樣本 1”,或者您是否將較大或較小的方差放在分子中都無關緊要 - 但是通過一些常見的方法,這些明顯合理的條件被違反了。]
[1]:Agresti, A. (1992),列聯表統計科學
的精確推斷調查,卷。7,第 1 期(2 月),第 131-153 頁。