使用 bootstrap 獲得第一百分位數的抽樣分佈

October 12, 2014

我有一個來自人群的樣本（大小為 250）。不知道人口分佈。

**主要問題：**我想要人口的第一個百分位數的點估計，然後我想要圍繞我的點估計的 95% 置信區間。

我的點估計將是樣本 1 st -percentile。我表示它.

之後，我嘗試圍繞點估計建立置信區間。**我想知道在這裡使用引導程序是否有意義。**我對引導程序非常缺乏經驗，所以如果我沒有使用適當的術語等，請原諒。

這是我嘗試做到的方式。我從原始樣本中抽取了 1000 個隨機樣本進行替換。我從他們每個人那裡獲得了第一個百分位數。因此，我有 1000 分 - “第一百分位數”。我看一下這 1000 個點的經驗分佈。我表示它的平均值. 我將“偏見”表示如下：. 我取 1000 個點中的第 2.5個百分位數和第 97.5個百分位數來獲得我稱之為原始樣本第一個百分位數周圍的 95% 置信區間的下限和上限。我指出這些點和.

剩下的最後一步是調整這個置信區間，使其在總體的第 1 個百分位附近，而不是在原始樣本的第一個百分位附近。因此我採取作為下端和作為總體第一個百分位數的點估計值周圍的 95% 置信區間的上限。這最後一個間隔是我正在尋找的。

在我看來，一個關鍵點是，將bootstrap用於第 1 個百分位數是否有意義，該百分位數相當接近於人口未知潛在分佈的尾部。我懷疑這可能有問題；考慮使用引導程序在最小值（或最大值）附近建立置信區間。

但也許這種方法有缺陷？請告訴我。

編輯：

稍微考慮一下這個問題後，我發現我的解決方案暗示了以下內容：原始樣本的第 1 個經驗百分位可能是總體第 1 個百分位的有偏估計量。如果是這樣，點估計應該進行偏差調整：. 否則，偏差調整的置信區間將與偏差未調整的點估計值不兼容。我需要調整點估計和置信區間，或者都不調整。

另一方面，如果我不允許估計有偏差，我就不必進行偏差調整。也就是說，我會採取作為點估計和作為下端和作為 95% 置信區間的上端。我不確定這個間隔是否有意義……

那麼假設樣本第 1 個百分位是對總體第 1 個百分位的有偏估計是否有意義？如果不是，我的替代解決方案是否正確？

對分佈極端值的引導推斷通常是可疑的。當引導 n-out-of-n 樣本中的最小值或最大值時，你有您將重現您的樣本極端觀察的機會，同樣近似有機會重現您的第二個極端觀察，依此類推。你會得到一個確定性分佈，它與尾部的基礎分佈的形狀幾乎沒有關係。此外，即使分佈具有低於該值的支持，引導程序也無法為您提供低於樣本最小值的任何值（就像大多數連續分佈一樣，例如正常分佈）。

解決方案很複雜，並且依賴於來自極值理論的漸近線和少於 n 次觀測的子採樣的組合（實際上，更少，速率應該收斂到零，因為）。

引用自：https://stats.stackexchange.com/questions/119748

comments powered by Disqus

使用 bootstrap 獲得第一百分位數的抽樣分佈

相關問答

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

beta 分佈隨機變量的 argmax 分佈

隨機森林是否擅長檢測交互項？

為什麼不以以下方式進行引導？

自舉回歸分析後，所有 p 值都是 0.001996 的倍數

哪個分佈的最大均勻分佈？