Confidence-Interval

絕對不應該使用百分位引導程序是真的嗎?

  • July 12, 2018

在 MIT OpenCourseWare notes for 18.05 Introduction to Probability and Statistics, Spring 2014(目前可在此處獲得),它指出:

bootstrap 百分位數方法因其簡單性而具有吸引力。但是,這取決於自舉分佈基於一個特定的樣本是一個很好的近似真實分佈. 賴斯談到百分位數方法時說:“儘管這種帶有置信限的自舉抽樣分佈的分位數直接方程最初看起來很吸引人,但其基本原理有些模糊。”[2] 簡而言之,不要使用自舉百分位數方法。請改用經驗引導程序(我們已經解釋了兩者,希望您不會將經驗引導程序與百分位數引導程序混淆)。

[2] 約翰·賴斯,數理統計和數據分析,第 2 版,p。272

在網上搜索了一下之後,這是我發現的唯一一個明確指出不應使用百分位引導程序的引述。

我記得從Clarke 等人*的《數據挖掘和機器學習的原理和理論》一文中讀到的內容。*是自舉的主要理由是

在哪裡是經驗 CDF。(我不記得除此之外的細節。) 不應該使用百分位引導方法是真的嗎?如果是這樣,什麼時候有什麼替代方案不一定是已知的(即,沒有足夠的信息可用於進行參數引導)?


更新

由於已要求澄清,這些麻省理工學院筆記中的“經驗引導”指的是以下過程:他們計算和和自舉估計和的全樣本估計,得到的估計置信區間為.

本質上,主要思想是這樣的:經驗自舉估計一個與點估計和實際參數之間的差異成比例的量,即,並使用此差異得出 CI 的下限和上限。

“百分位引導程序”指的是以下內容:使用作為置信區間. 在這種情況下,我們使用 bootstrapping 來計算感興趣參數的估計值,並將這些估計值的百分位數作為置信區間。

置信區間 (CI) 的所有非參數自舉估計都存在一些共同的困難,其中一些困難與“經驗”(boot.ci()在 Rboot的功能和參考文獻 1中稱為“基本” )都存在更多問題和“百分位數”CI 估計值(如參考文獻 2中所述),以及一些可能會因百分位數 CI 而加劇。

TL;DR:在某些情況下,百分位引導 CI 估計可能會充分發揮作用,但如果某些假設不成立,那麼百分位 CI 可能是最糟糕的選擇,而經驗/基本引導則次之。其他引導 CI 估計可能更可靠,覆蓋範圍更好。一切都可能有問題。與往常一樣,查看診斷圖有助於避免因僅接受軟件例程的輸出而導致的潛在錯誤。

引導設置

通常遵循參考文獻的術語和論點。1、我們有一個數據樣本取自獨立且同分佈的隨機變量共享累積分佈函數. 從數據樣本構造的經驗分佈函數(EDF)是. 我們對一個特徵感興趣人口,由統計估計樣本中的值為. 我們想知道有多好估計,例如,分佈.

非參數引導程序使用來自 EDF 的採樣模仿採樣, 取每個尺寸的樣本從更換. 從引導樣本計算的值用“”表示。例如,統計在 bootstrap 樣本j*上計算提供了一個值.

經驗/基本與百分位自舉 CI

經驗/基本引導程序使用的分佈之間引導樣本來自估計分佈在所描述的人口中本身。因此,其 CI 估計值基於, 在哪裡是原始樣本中統計量的值。

這種方法基於引導的基本原理(參考文獻 3):

總體之於樣本,就像樣本之於自舉樣本一樣。

百分位引導程序改為使用分位數值自己來確定 CI。如果分佈中存在偏斜或偏差,這些估計可能會大不相同.

假設存在觀察到的偏差這樣:

在哪裡是的平均值. 具體而言,假設第 5 和第 95 個百分位表示為和, 在哪裡是自舉樣本的平均值,並且每個都是積極的並且可能不同以允許偏差。第 5 和第 95 CI 基於百分位數的估計值將分別由以下公式直接給出:

通過經驗/基本自舉方法得出的第 5 和第 95 個百分位數 CI 估計值分別為(參考文獻 1,等式 5.6,第 194 頁):

因此*,基於百分位數的 CI 既會導致偏差錯誤,也會將置信限的潛在不對稱位置的方向翻轉到雙偏中心周圍*。在這種情況下,自舉的百分位數 CI 並不代表.

此行為在此頁面上得到了很好的說明,用於引導一個如此負偏的統計數據,以至於基於經驗/基本方法(直接包括適當的偏差校正),原始樣本估計值低於 95% CI。基於百分位數法的 95% CI,圍繞雙重負偏中心排列,實際上都低於原始樣本的負偏點估計值!

永遠不要使用百分位引導程序嗎?

這可能是誇大或低估,這取決於你的觀點。如果您可以記錄最小偏差和偏斜,例如通過可視化分佈使用直方圖或密度圖,百分位自舉應該提供與經驗/基本 CI 基本相同的 CI。這些可能都比 CI 的簡單正態近似更好。

然而,這兩種方法都不能提供其他引導方法可以提供的覆蓋精度。Efron 從一開始就認識到百分位 CI 的潛在局限性,但他說:“大多數情況下,我們會滿足於讓示例的不同程度的成功說明一切。” (參考文獻 2,第 3 頁)

隨後的工作,例如由 DiCiccio 和 Efron(參考文獻 4)總結的,開發了由經驗/基本或百分位數方法提供的“將標準間隔的準確性提高一個數量級”的方法。因此,如果您關心區間的準確性,則可能會爭辯說,既不應該使用經驗/基本方法,也不應該使用百分位數方法。

在極端情況下,例如直接從對數正態分佈中採樣而不進行轉換,沒有自舉 CI 估計可能是可靠的,正如Frank Harrell 所指出的那樣

是什麼限制了這些和其他自舉 CI 的可靠性?

有幾個問題可能會使自舉 CI 變得不可靠。有些適用於所有方法,有些可以通過經驗/基本或百分位數方法以外的方法來緩解。

第一個一般性問題是經驗分佈有多好代表人口分佈. 如果不是,那麼沒有任何引導方法是可靠的。特別是,通過自舉來確定任何接近分佈極值的東西可能是不可靠的。這個問題在本網站的其他地方進行了討論,例如這里這裡。尾部可用的少數離散值對於任何特定樣本可能不代表連續的尾部很好。一個極端但具有說明性的案例是嘗試使用自舉來估計來自製服的隨機樣本的最大階統計量分佈,正如這裡很好解釋的那樣。請注意,自舉 95% 或 99% CI 本身就是分佈的尾部,因此可能會遇到這樣的問題,尤其是在樣本量較小的情況下。

其次,不能保證從將具有與從中採樣相同的分佈. 然而,這一假設是自舉的基本原則的基礎。具有這種理想屬性的量稱為關鍵量。正如AdamO 解釋的那樣

這意味著如果基礎參數發生變化,分佈的形狀只會移動一個常數,而尺度不一定會改變。這是一個強有力的假設!

例如,如果存在偏差,重要的是要知道從大約與從採樣相同大約. 這是非參數抽樣中的一個特殊問題;作為參考。1將其放在第 33 頁:

在非參數問題中,情況更為複雜。現在不太可能(但並非絕對不可能)任何數量都可能是完全關鍵的。

因此,通常可能的最佳值是近似值。然而,這個問題通常可以得到充分解決。可以估計採樣數量與樞軸的接近程度,例如使用Canty 等人推薦的樞軸圖。這些可以顯示自舉估計的分佈情況隨, 或者轉換的效果如何提供數量這是關鍵。改進自舉 CI 的方法可以嘗試找到轉換這樣更接近於在轉換後的尺度中估計 CI 的關鍵,然後再轉換回原始尺度。

該函數提供學生化引導 CI( DiCiccio 和 Efronboot.ci()稱為“bootstrap - t ” )和CI(偏差校正和加速,其中“加速度”處理偏斜)是“二階準確”的,因為期望和實現的覆蓋範圍之間的差異(例如,95% CI)大約為,與僅一階準確(階) 用於經驗/基本方法和百分位數方法(參考文獻 1,第 212-3 頁;參考文獻 4)。然而,這些方法需要跟踪每個自舉樣本內的方差,而不僅僅是由那些更簡單的方法使用。

在極端情況下,可能需要在自舉樣本本身內使用自舉,以提供對置信區間的充分調整。這種“雙引導”在參考文獻的第 5.6 節中進行了描述。1,該書中的其他章節提出了將其極端計算需求最小化的方法。


  1. Davison, AC 和 Hinkley,DV Bootstrap 方法及其應用,劍橋大學出版社,1997 年
  2. Efron, B. Bootstrap Methods:再看一下折刀,Ann。統計學家。7:1-26,1979 年
  3. Fox, J. 和 Weisberg, S. R 中的自舉回歸模型。 R 應用回歸指南的附錄,第二版(Sage,2011 年)。截至 2017 年 10 月 10 日的修訂
  4. DiCiccio, TJ 和 Efron, B. Bootstrap 置信區間。統計。科學。11:189-228,1996 年
  5. Canty, AJ, Davison, AC, Hinkley, DV 和 Ventura, V. Bootstrap 診斷和補救措施。能。J.統計。34:5-27,2006 年

引用自:https://stats.stackexchange.com/questions/355781

comments powered by Disqus