Probability

顯示估計通過訂單統計收斂到百分位數

  • June 2, 2016

讓是從alpha 穩定分佈中採樣的 iid 隨機變量序列,帶有參數.

現在考慮序列, 在哪裡, 為了.

我想估計百分位。

我的想法是進行某種蒙特卡羅模擬:

l = 1;
while(l < max_iterations)
{
 Generate $X_1, X_2, \ldots, X_{3n}$ and compute $Y_1, Y_2, \ldots, Y_{n}$;
 Compute $0.01-$percentile of current repetition;
 Compute mean $0.01-$percentile of all the iterations performed;
 Compute variance of $0.01-$percentile of all the iterations performed;
 Calculate confidence interval for the estimate of the $0.01-$percentile;

 if(confidence interval is small enough)
   break;

}

調用所有樣本的平均值百分位數計算為及其方差, 計算適當的置信區間,我求助於中心極限定理的強形式

讓是一個 iid 隨機變量序列和. 將樣本均值定義為. 然後,具有極限標準正態分佈,即

Slutksy 定理得出的結論是

然後一個- 置信區間是

在哪裡是個-標準正態分佈的分位數。


問題:

**1)**我的方法正確嗎?我如何證明 CLT 的應用是合理的?我的意思是,我怎樣才能證明方差是有限的?(我是否必須查看? 因為我不認為它是有限的……)

**2)**如何顯示所有樣本的平均值計算的百分位數收斂於真實值百分位?(我應該使用訂單統計信息,但我不確定如何進行;感謝參考。)

的方差不是有限的。 這是因為一個 alpha 穩定的變量和(霍爾茲馬克分佈)確實有一個有限的期望但它的方差是無限的。如果有一個有限的方差,然後通過利用以及我們可以計算的方差定義

這個三次方程在至少有一個真正的解決方案(最多三個解決方案,但沒有更多),這意味著將是有限的——但它不是。這一矛盾證明了這一說法。


讓我們轉向第二個問題。

隨著樣本變大,任何樣本分位數都會收斂到真實分位數。 接下來的幾段證明了這一點。

讓相關概率為(或之間的任何其他值和, 獨家的)。寫為分佈函數,所以是個分位數。

我們需要假設的是(分位數函數)是連續的。這向我們保證,對於任何有概率和為此

那作為, 區間的極限是.

考慮任何大小的獨立同分佈樣本. 該樣本的元素個數小於有一個二項式分佈,因為每個元素獨立有機會小於. 中心極限定理(通常的!)意味著對於足夠大的, 元素個數小於由具有均值的正態分佈給出和方差(到任意好的近似值)。設標準正態分佈的 CDF 為. 這個數量超過的機會因此任意接近

因為論點右邊是固定倍數,它任意增長為成長。自從是一個 CDF,它的值任意接近,表明這個概率的極限值是零。

用語言來說:在極限中,幾乎可以肯定的情況是樣本元素不小於. 一個類似的論點證明,幾乎可以肯定的是,樣本元素不大於. 總之,這些意味著足夠大樣本的分位數極有可能位於和.

這就是我們需要知道模擬會起作用的全部內容。 您可以選擇任何所需的準確度和置信水平並且知道對於足夠大的樣本量,最接近的順序統計量在那個樣本中至少有機會身處其中真分位數的.


確定模擬可以工作後,剩下的就很容易了。置信限可以從二項分佈的限制中獲得,然後進行反向轉換。進一步說明(對於分位數,但推廣到所有分位數)可以在樣本中位數的中心極限定理的答案中找到。

圖:Y 的 0.01 個分位數的直方圖,n=300,1000 次迭代

這分位數是負數。它的抽樣分佈是高度偏斜的。為了減少偏斜,該圖顯示了1,000 個模擬樣本的負數的對數直方圖的值.

library(stabledist)
n <- 3e2
q <- 0.01
n.sim <- 1e3

Y.q <- replicate(n.sim, {
 Y <- apply(matrix(rstable(3*n, 3/2, 0, 1, 1), nrow=3), 2, prod) - 1
 log(-quantile(Y, 0.01))
})
m <- median(-exp(Y.q))
hist(Y.q, freq=FALSE, 
    main=paste("Histogram of the", q, "quantile of Y for", n.sim, "iterations" ),
    xlab="Log(-Y_q)",
    sub=paste("Median is", signif(m, 4), 
              "Negative log is", signif(log(-m), 4)),
    cex.sub=0.8)
abline(v=log(-m), col="Red", lwd=2)

引用自:https://stats.stackexchange.com/questions/215996

comments powered by Disqus