Distributions

的pdf𝑋1-𝑋¯𝑆X1-X¯小號frac{X_1-bar{X}}{S}

  • November 16, 2015

認為 $ X_1, X_2,…,X_n $ 獨立身份 $ N(\mu,\sigma^2) $ 與未知 $ \mu \in \mathcal R $ 和 $ \sigma^2>0 $

讓 $ Z=\frac{X_1-\bar{X}}{S} $ , 在哪裡 $ S $ 是這裡的標準差。

可以證明 $ Z $ 有勒貝格 pdf

$$ f(z)=\frac{\sqrt{n}, \Gamma\left(\frac{n-1}{2}\right)}{\sqrt{\pi}(n-1)\Gamma\left(\frac{n-2}{2}\right)}\left[1-\frac{nz^2}{(n-1)^2}\right]^{n/2-2}I_{(0,(n-1)/\sqrt{n})}(|z|) $$

我的問題是如何獲得這個pdf?

問題是從這裡在示例 3.3.4 中找到的 UMVUE $ P(X_1 \le c) $ . 我可以理解查找 UMVUE 的邏輯和程序,但不知道如何獲取 pdf。

我認為這個問題也與這個有關

非常感謝您的幫助或指出任何相關的參考資料也將被挪用。

這個結果的有趣之處在於它看起來有多像相關係數的分佈。這是有原因的。


認為 $ (X,Y) $ 是具有零相關性和共同方差的二元正態 $ \sigma^2 $ 對於這兩個變量。繪製一個 iid 樣本 $ (x_1,y_1), \ldots, (x_n,y_n) $ . 眾所周知,並且很容易從幾何上確定(就像費舍爾在一個世紀前所做的那樣)樣本相關係數的分佈

$$ r = \frac{\sum_{i=1}^n(x_i - \bar x)(y_i - \bar y)}{(n-1) S_x S_y} $$

$$ f(r) = \frac{1}{B\left(\frac{1}{2}, \frac{n}{2}-1\right)}\left(1-r^2\right)^{n/2-2},\ -1 \le r \le 1. $$

(這裡,像往常一樣, $ \bar x $ 和 $ \bar y $ 是樣本均值和 $ S_x $ 和 $ S_y $ 是無偏方差估計量的平方根。) $ B $ 是Beta 函數,對於

$$ \frac{1}{B\left(\frac{1}{2}, \frac{n}{2}-1\right)} = \frac{\Gamma\left(\frac{n-1}{2}\right)}{\Gamma\left(\frac{1}{2}\right)\Gamma\left(\frac{n}{2}-1\right)} = \frac{\Gamma\left(\frac{n-1}{2}\right)}{\sqrt{\pi}\Gamma\left(\frac{n}{2}-1\right)} . \tag{1} $$

計算 $ r $ ,我們可以利用它在旋轉下的不變性 $ \mathbb{R}^n $ 圍繞由生成的線 $ (1,1,\ldots, 1) $ ,隨著相同旋轉下樣本分佈的不變性,選擇 $ y_i/S_y $ 是其分量總和為零的任何單位向量。 一個這樣的向量與 $ v = (n-1, -1, \ldots, -1) $ . 它的標準差是

$$ S_v = \sqrt{\frac{1}{n-1}\left((n-1)^2 + (-1)^2 + \cdots + (-1)^2\right)} = \sqrt{n}. $$

最後, $ r $ 必須具有相同的分佈

$$ \frac{\sum_{i=1}^n(x_i - \bar x)(v_i - \bar v)}{(n-1) S_x S_v} = \frac{(n-1)x_1 - x_2-\cdots-x_n}{(n-1) S_x \sqrt{n}} = \frac{n(x_1 - \bar x)}{(n-1) S_x \sqrt{n}} = \frac{\sqrt{n}}{n-1}Z. $$

因此,我們需要做的就是重新調整 $ r $ 找到分佈 $ Z $ :

$$ f_Z(z) = \bigg|\frac{\sqrt{n}}{n-1}\bigg| f\left(\frac{\sqrt{n}}{n-1}z\right) = \frac{1}{B\left(\frac{1}{2}, \frac{n}{2}-1\right)} \frac{\sqrt{n}}{n-1}\left(1- \frac{n}{(n-1)^2}z^2\right)^{n/2-2} $$

為了 $ |z| \le \frac{n-1}{\sqrt{n}} $ . 公式(1)表明這與問題的相同。


不完全相信?這是模擬這種情況 100,000 次的結果(使用 $ n=4 $ ,其中分佈是均勻的)。

數字

第一個直方圖繪製了相關係數 $ (x_i,y_i),i=1,\ldots,4 $ 而第二個直方圖繪製了相關係數 $ (x_i,v_i),i=1,\ldots,4) $ 對於隨機選擇的向量 $ v_i $ 對於所有迭代都保持不變。 他們都是統一的。右側的 QQ 圖證實了這些分佈基本相同。

R是產生情節的代碼。

n <- 4
n.sim <- 1e5
set.seed(17)
par(mfrow=c(1,3))
#
# Simulate spherical bivariate normal samples of size n each.
#
x <- matrix(rnorm(n.sim*n), n)
y <- matrix(rnorm(n.sim*n), n)
#
# Look at the distribution of the correlation of `x` and `y`.
#
sim <- sapply(1:n.sim, function(i) cor(x[,i], y[,i]))
hist(sim)
#
# Specify *any* fixed vector in place of `y`.
#
v <- c(n-1, rep(-1, n-1)) # The case in question
v <- rnorm(n)             # Can use anything you want
#
# Look at the distribution of the correlation of `x` with `v`.
#
sim2 <- sapply(1:n.sim, function(i) cor(x[,i], v))
hist(sim2)
#
# Compare the two distributions.
#
qqplot(sim, sim2, main="QQ Plot")

參考

RA Fisher,來自無限大總體的樣本中相關係數值的頻率分佈Biometrika , 10 , 507. 見第 3 節。(引自Kendall 的高級統計理論,第 5 版,第 16.24 節。)

引用自:https://stats.stackexchange.com/questions/181964

comments powered by Disqus