ECDF 的置信區間

November 14, 2015

Dvoretzky–Kiefer–Wolfowitz 不等式如下：

,

它預測經驗確定的分佈函數與從中抽取經驗樣本的分佈函數的接近程度。使用這個不等式，我們能夠在周圍繪製置信區間 (CI)（ECDF）。但是這些 CI 在 ECDF 的每個點周圍的距離都是相等的。

我想知道，是否有另一種方法可以圍繞 ECDF 構建 CI？

閱讀有序統計，我們發現有序統計的漸近分佈如下：

現在，首先，-index 用那些符號是什麼意思？

主要問題：我們是否能夠使用此結果與 delta 方法（見下文）一起為 ECDF 提供 CI。我的意思是，ECDF 是有序統計的函數，對吧？但同時 ECDF 是一個非參數函數，那麼這是一條死胡同嗎？

我們知道和

我希望我清楚我在這裡得到了什麼，並感謝任何幫助。

編輯：

Delta 方法：如果你有一系列隨機變量令人滿意的

,

和和是有限的，則滿足以下條件：

,

對於任何滿足以下性質的函數 g存在，非零值，並且與隨機變量呈多項式邊界（引用維基百科）

我看不到使用 delta 方法的方法，但是…

閱讀關於經驗分佈函數的收斂性，我們讀到中心極限定理給了我們：

我們可以使用它來圍繞每個創建不同的 CI：

,

自從,是我們最好的估計.

使用以下 R 代碼：
#confidenc ebands calculation:
sim_norm<-rnorm(100)
plot(sim_norm)
hist(sim_norm)
sim_norm_sort<-sort(sim_norm)
n = sum(!is.na(sim_norm_sort))
plot(sim_norm_sort, (1:n)/n, type = 's', ylim = c(0, 1), 
    xlab = 'sample', ylab = '', main = 'Empirical Cumluative Distribution')

# Dvoretzky–Kiefer–Wolfowitz inequality:
# P ( sup|F_n - F| > epsilon  ) leq 2*exp(-2n*epsilon^2)
# set alpha to 0.05 and alpha=2*exp(-2n*epsilon^2):
# --> epsilon_n = sqrt(-log(0.5*0.05)/(2*n))
#
#lower and upper bands:
L<-1:n
U<-1:n


 epsilon_i = sqrt(log(2/0.05)/(2*n))

 L=pmax(1:n/n-epsilon_i, 0)
 U=pmin(1:n/n+epsilon_i, 1)
 lines(sim_norm_sort, U, col="blue")
 lines(sim_norm_sort, L, col="blue")

#using clt:
U2=(1:n/n)+1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
L2=(1:n/n)-1.96*sqrt( (1:n/n)*(1-1:n/n)/n )
lines(sim_norm_sort, L2, col="red")
lines(sim_norm_sort, U2, col="red")
我們得到：

我們看到紅色帶（來自 CLT 方法）為我們提供了更窄的置信帶。

編輯：正如@Kjetil B Halvorsen 指出的那樣——這兩種類型的樂隊是不同的類型。我讓@Glen_b 準確解釋了他的意思：

非常不同種類的置信區間。使用逐點置信帶，即使是從中提取數據的分佈，您也會期望在帶外有許多點。與同時樂隊，你不會。如果您有 95% 的逐點帶，則平均 5% 的正確分佈點將在帶之外。對於同時帶，有 5% 的機會，最大偏差的點在外面。

非常感謝兩者！

引用自：https://stats.stackexchange.com/questions/181724

comments powered by Disqus

ECDF 的置信區間

相關問答

為什麼樂透中球上的數字是分類名義而不是分類序數？

序數或二進制數據是否有因子分析或 PCA？

二進制數據可以是序數嗎？

開發統計測試以區分兩種產品

如何建立神經網絡來輸出序數數據？

兩個有序分類變量之間的相關性