Bootstrap

為什麼每個 bootstrap 樣本平均包含大約三分之二的觀察值?

  • March 6, 2014

我遇到過這樣的斷言,即每個引導樣本(或袋裝樹)平均將包含大約的意見。

我了解在任何一個項目中沒有被選中的機會從替換樣本是, 約等於沒有被選中的機會。

為什麼這個公式總是給出的數學解釋是什麼?

本質上,問題是要表明

(而且當然,,至少非常粗略)。

它在很小的時候不起作用– 例如在,. 它通過在, 通過在, 和經過. 一旦超越,是更好的近似值.

在此處輸入圖像描述

灰色虛線位於; 紅線和灰線在.

與其展示一個正式的推導(很容易找到),我將給出一個大綱(這是一個直觀的、手動的論證),說明為什麼(稍微)更一般的結果成立:

(很多人認為這是定義,但您可以通過更簡單的結果來證明它,例如定義作為.)

事實1:這是從關於冪和冪的基本結果得出的

事實 2:何時很大,這是從級數展開中得出的.

(我可以為每一個提供更全面的論據,但我假設你已經知道它們)

將 (2) 代入 (1)。完畢。(要讓它作為一個更正式的論點起作用,需要做一些工作,因為你必須證明事實 2 中的其餘術語不會變得大到足以在掌權時引起問題. 但這是直覺而非形式證明。)

[或者,只取泰勒級數到第一順序。第二種簡單的方法是採用二項式展開並逐項取極限,表明它給出了系列中的術語.]

因此,如果, 只是替換.

立即,我們在這個答案的頂部得到了結果,


正如gung在評論中指出的那樣,您問題的結果是632引導規則的起源

例如見

Efron, B. 和 R. Tibshirani (1997),

“交叉驗證的改進:.632+ Bootstrap 方法”

,美國統計協會雜誌卷。92, No. 438. (Jun), pp. 548-560

引用自:https://stats.stackexchange.com/questions/88980

comments powered by Disqus

相關問答