使用 bootstrap 獲得第一百分位數的抽樣分佈
我有一個來自人群的樣本(大小為 250)。不知道人口分佈。
**主要問題:**我想要人口的第一個百分位數的點估計,然後我想要圍繞我的點估計的 95% 置信區間。
我的點估計將是樣本 1 st -percentile。我表示它.
之後,我嘗試圍繞點估計建立置信區間。**我想知道在這裡使用引導程序是否有意義。**我對引導程序非常缺乏經驗,所以如果我沒有使用適當的術語等,請原諒。
這是我嘗試做到的方式。我從原始樣本中抽取了 1000 個隨機樣本進行替換。我從他們每個人那裡獲得了第一個百分位數。因此,我有 1000 分 - “第一百分位數”。我看一下這 1000 個點的經驗分佈。我表示它的平均值. 我將“偏見”表示如下:. 我取 1000 個點中的第 2.5個百分位數和第 97.5個百分位數來獲得我稱之為原始樣本第一個百分位數周圍的 95% 置信區間的下限和上限。我指出這些點和.
剩下的最後一步是調整這個置信區間,使其在總體的第 1 個百分位附近,而不是在原始樣本的第一個百分位附近。因此我採取作為下端和作為總體第一個百分位數的點估計值周圍的 95% 置信區間的上限。這最後一個間隔是我正在尋找的。
在我看來,一個關鍵點是,將bootstrap用於第 1 個百分位數是否有意義,該百分位數相當接近於人口未知潛在分佈的尾部。我懷疑這可能有問題;考慮使用引導程序在最小值(或最大值)附近建立置信區間。
但也許這種方法有缺陷?請告訴我。
編輯:
稍微考慮一下這個問題後,我發現我的解決方案暗示了以下內容:原始樣本的第 1 個經驗百分位可能是總體第 1 個百分位的有偏估計量。如果是這樣,點估計應該進行偏差調整:. 否則,偏差調整的置信區間將與偏差未調整的點估計值不兼容。我需要調整點估計和置信區間,或者都不調整。
另一方面,如果我不允許估計有偏差,我就不必進行偏差調整。也就是說,我會採取作為點估計和作為下端和作為 95% 置信區間的上端。我不確定這個間隔是否有意義……
那麼假設樣本第 1 個百分位是對總體第 1 個百分位的有偏估計是否有意義?如果不是,我的替代解決方案是否正確?
對分佈極端值的引導推斷通常是可疑的。當引導 n-out-of-n 樣本中的最小值或最大值時, 你有您將重現您的樣本極端觀察的機會,同樣近似有機會重現您的第二個極端觀察,依此類推。你會得到一個確定性分佈,它與尾部的基礎分佈的形狀幾乎沒有關係。此外,即使分佈具有低於該值的支持,引導程序也無法為您提供低於樣本最小值的任何值(就像大多數連續分佈一樣,例如正常分佈)。
解決方案很複雜,並且依賴於來自極值理論的漸近線和少於 n 次觀測的子採樣的組合(實際上,更少,速率應該收斂到零,因為)。