具有不對稱零分佈的雙尾檢驗中的 P 值

March 3, 2015

我的情況如下：我想通過蒙特卡洛研究來比較-估計參數的統計顯著性的兩個不同測試的值（null 是“無影響 - 參數為零”，隱含的替代方案是“參數不為零”）。測試A是標準的“均值相等的獨立雙樣本 t 檢驗”，在零值下具有相等的方差。

測試B我自己構建的。這裡，使用的零分佈是非對稱的通用離散分佈。但我在Rohatgi & Saleh (2001, 2nd ed, p. 462)中發現了以下評論

“如果分佈不對稱，則-value 在兩側的情況下沒有很好的定義，儘管許多作者建議將一側加倍-價值”。

作者沒有進一步討論這個問題，也沒有評論“許多作者的建議”以加倍片面-價值。（這就產生了一個問題“加倍-哪一方的價值？為什麼是這一邊而不是另一邊？）

我無法找到關於這整個問題的任何其他評論、意見或結果。我知道，對於非對稱分佈，雖然我們可以考慮關於參數值的零假設周圍對稱的區間，但我們不會有第二種常見的對稱性，即概率質量分配的對稱性。但我不明白為什麼這會使 -值“未明確定義”。就個人而言，通過對估計量的值使用圍繞零假設對稱的區間，我認為“零分佈將產生等於或超出該區間邊界的值的概率是 XX”沒有*定義問題。*一方面的概率質量與另一側的概率質量不同，這一事實似乎不會造成麻煩，至少對我而言。但更有可能的是，Rohatgi & Saleh 知道一些我不知道的事情。

所以這是我的問題：在什麼意義上當空分佈不對稱時，在雙邊測試的情況下，-value 是（或可以是）“定義不明確”？

一個可能很重要的說明：我更多地以費舍爾精神來處理這個問題，我並不是試圖獲得內曼 - 皮爾森意義上的嚴格決策規則。我把它留給測試的用戶使用-價值信息以及任何其他信息以進行推斷。

如果我們看一下 2x2 精確測試，並將其作為我們的方法，那麼“更極端”的情況可能會直接通過“較低可能性”來衡量。（Agresti[1] 提到了許多作者為2x2 Fisher 精確檢驗的這種情況計算兩個尾 p 值的方法，其中這種方法是專門討論為“最流行”的三種方法之一。）

對於連續（單峰）分佈，您只需在另一條尾部中找到與樣本值具有相同密度的點，並且在另一條尾部中具有相等或較低可能性的所有內容都計入您的 p 值計算中。

對於尾部單調非遞增的離散分佈，它幾乎一樣簡單。您只需計算與您的樣本具有相同或更低可能性的所有事物，考慮到我添加的假設（使“尾巴”一詞符合這個想法），提供了一種解決方法。

如果您熟悉 HPD 區間（同樣，我們正在處理單峰），這基本上就像將所有內容都放在一個開放的 HPD 區間之外，該區間由您的樣本統計量限制在一條尾巴上。

[重申一下——這是我們在這裡等同的空值下的可能性。]

所以至少在單峰情況下，模仿Fisher的精確檢驗似乎很簡單，並且仍然談論兩條尾巴。

但是，您可能並不打算以這種方式調用費舍爾精確檢驗的精神。

因此，暫時不考慮是什麼讓事情變得“一樣，或更極端”的想法，讓我們稍微朝內曼 - 皮爾森的結局走一點。它可以幫助（在測試之前！）為在某個通用級別進行的測試定義拒絕區域 $ \alpha $ （我並不是說你必須從字面上計算一個，只是你將如何計算一個）。一旦你這樣做了，為你的案例計算兩個尾 p 值的方法應該會變得很明顯。

即使在通常的似然比檢驗之外進行檢驗，這種方法也很有價值。對於某些應用程序，弄清楚如何在不對稱置換測試中計算 p 值可能會很棘手……但如果您首先考慮拒絕規則，它通常會變得更加簡單。

通過方差 F 檢驗，我注意到“雙尾 p 值”可以為我認為正確的方法提供完全不同的 p 值。[例如，我堅持認為，您將哪個組稱為“樣本 1”，或者您是否將較大或較小的方差放在分子中都無關緊要 - 但是通過一些常見的方法，這些明顯合理的條件被違反了。]

[1]：Agresti, A. (1992)，列聯表統計科學

的精確推斷調查，卷。7，第 1 期（2 月），第 131-153 頁。

引用自：https://stats.stackexchange.com/questions/140107

comments powered by Disqus

具有不對稱零分佈的雙尾檢驗中的 P 值

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

我可以比較 p 值嗎？

為什麼當平均值看起來真的不同時，t.test() 的 p 值在統計上不顯著

為什麼均值 ± 2*SEM（95% 置信區間）重疊，但 p 值為 0.05？

如果您多次執行相同的測試，您可以將 p 值相乘嗎？

自舉回歸分析後，所有 p 值都是 0.001996 的倍數