Bootstrap
為什麼每個 bootstrap 樣本平均包含大約三分之二的觀察值?
我遇到過這樣的斷言,即每個引導樣本(或袋裝樹)平均將包含大約的意見。
我了解在任何一個項目中沒有被選中的機會從替換樣本是, 約等於沒有被選中的機會。
為什麼這個公式總是給出的數學解釋是什麼?
本質上,問題是要表明
(而且當然,,至少非常粗略)。
它在很小的時候不起作用– 例如在,. 它通過在, 通過在, 和經過. 一旦超越,是更好的近似值.
灰色虛線位於; 紅線和灰線在.
與其展示一個正式的推導(很容易找到),我將給出一個大綱(這是一個直觀的、手動的論證),說明為什麼(稍微)更一般的結果成立:
(很多人認為這是定義,但您可以通過更簡單的結果來證明它,例如定義作為.)
事實1:這是從關於冪和冪的基本結果得出的
事實 2:何時很大,這是從級數展開中得出的.
(我可以為每一個提供更全面的論據,但我假設你已經知道它們)
將 (2) 代入 (1)。完畢。(要讓它作為一個更正式的論點起作用,需要做一些工作,因為你必須證明事實 2 中的其餘術語不會變得大到足以在掌權時引起問題. 但這是直覺而非形式證明。)
[或者,只取泰勒級數到第一順序。第二種簡單的方法是採用二項式展開並逐項取極限,表明它給出了系列中的術語.]
因此,如果, 只是替換.
立即,我們在這個答案的頂部得到了結果,
正如gung在評論中指出的那樣,您問題的結果是632引導規則的起源
例如見
Efron, B. 和 R. Tibshirani (1997),
“交叉驗證的改進:.632+ Bootstrap 方法”
,美國統計協會雜誌卷。92, No. 438. (Jun), pp. 548-560