Distributions

原假設下 p 值的分佈是均勻的 (0, 1)

  • November 13, 2019

我看過這個這個和一些 YouTube 視頻,但我仍然卡住了。

我了解概率積分變換如何導致 p 值的 CDF 具有均勻分佈的結果。

我不明白為什麼這意味著 p 值本身俱有均勻分佈。

也就是說,我明白了這麼多:

假設 X ~ Unif(a, b)。那麼 X 的 CDF 為:

P(Xx)={0  if  xa (xa)/(ba)  if  ax<b 1  if xb

所以如果 X ~ Unif(0, 1),那麼P(Xx)=x

(只需替換 a=0 和 b=1)。

現在假設Y=F(X)

,我們想知道 Y 的概率分佈。也就是說,我們想知道 X 的 CDF 的概率分佈。

我們知道分佈的 CDF 是分佈的唯一標識符,所以如果你看到,例如, P(Xx)=x 那麼你知道 X ~ Unif(0, 1)。

我們還知道 CDF 是右連續的,它們從 0 到 1。因此選擇一個介於 0 和 1 之間的值 f 並嘗試找出 CDF Y 取值較小的概率是合理的大於或等於 f:

P(Yf)=P(F(X)f) =P(XF1(f)) assuming F is invertible =F(F1(f)) =f

所以自從 P(Yf)=f,Y=F(X) 必須服從均勻分佈。

這意味著對於任何連續隨機變量(滿足我不確定的某些屬性),該連續隨機變量的 CDF 將具有 Unif(0, 1) 分佈。

這並不意味著隨機變量本身俱有 Unif(0, 1) 分佈。也就是說,這並不意味著 X 有一個 Unif(0, 1) 分佈,只是說 F(X) 有一個 Unif(0, 1) 分佈。

因此,如果測試統計量具有連續分佈,則該測試統計量的 CDF 具有 Unif(0, 1) 分佈。為什麼這意味著 p 值具有均勻分佈?

等等……p 值是檢驗統計量的 CDF 嗎?

顯然,我在這裡打結了自己。任何幫助,將不勝感激。

編輯(回應評論):

這是我睡覺以來的想法。

如果我們有 P(Xx)=x , 然後 X ~ Unif(0,1)。

自從 P(F(X)f)=f , 這意味著 F(X) 〜統一(0,1),對吧?

但是,如果原假設為真,為什麼這會導致我們認為 p 值是均勻分佈的呢?

假設我們有:

H0:μ0

Ha:μ<0
,

σ 是已知的。讓 ts 是檢驗統計量,它具有非標準正態分佈。標準化後,讓與檢驗統計量相關的 z-score 為 zts .

然後我們會拒絕 H0 如果 P(Z<zts)<0.05 . 也就是說,我們會拒絕 H0 如果 p 值小於 0.05。

表格 P(Z<zts) 和 CDF 是同一種形式,對吧?如果檢驗統計量是連續的,那麼這與 P(Zzts) .

現在讓 F(Z)=P(Zzts) .

這真的是 CDF 嗎?如果是這樣,那又是什麼?

當我們有其他替代假設(比如 Ha:μ>0 或者 Ha:μ0 )?

在假設檢驗中,我們計算檢驗統計量並詢問“將某事視為或比該觀察更極端的概率是多少”。

考慮一個測試,其中替代假設是“更大”的東西。在更大的替代背景下,這變成了看到觀察到的測試統計數據或任何比它更大的東西的概率。

換句話說,p_value 是檢驗統計量在 null 下的生存函數。所以,如果我們的檢驗統計量是 x 並且零假設涉及它根據 X0 , p_value 變為(對於替代為“更大”的測試並假設 SX0 是生存函數 X0 ):

q=P(Observation as or more extreme than x under null in direction of alternate)

=P(X0>x)=SX0(x)

但如果原假設真,則檢驗統計量, x 本身是從零分佈中得出的。我們說在空值下檢驗統計量的分佈是 X0 . 然後 p_value 的分佈由隨機變量給出 Q 這樣:

Q=SX0(X0)

但是我們知道,如果我們將隨機變量的生存函數(或 CDF)應用於自身,我們會得到 U(0,1) 分佈。這是逆變換採樣技術和 QQ 圖的基礎。

這是一個證明:

P(Q<q)=P(SX0(X0)<q)=P(X0>S1X0(q))=SX0(S1X0(q))=q

我們在第三個表達式中使用了生存函數單調遞減的事實。

但如果 P(Q<q)=q 然後 Q 必須是 U(0,1) .

引用自:https://stats.stackexchange.com/questions/435833