Bootstrap
引導方法。為什麼重新採樣“替換”而不是隨機子採樣?
bootstrap 方法在過去幾年中得到了很大的普及,我也經常使用它,尤其是因為背後的推理非常直觀。
但這是我不明白的一件事。為什麼 Efron 選擇使用替換執行重採樣,而不是通過隨機包含或排除單個觀測值來簡單地進行二次採樣?
我認為隨機二次抽樣有一個非常好的品質,即理想地代表現實生活中的情況,在這種情況下,我們在研究中的觀察結果是假設人群的一個子集。我沒有看到在重採樣期間進行多次觀察的優勢。在真實情況下,沒有觀察與其他觀察相似,尤其是對於復雜的多變量情況。
理解這種選擇的一種方法是將手頭的樣本視為您對潛在總體的最佳代表。您可能不再需要對整個人口進行抽樣,但您確實擁有人口的這種特殊表示。從這種總體表示中真正隨機重新抽樣意味著您必須進行替換抽樣,否則您以後的抽樣將取決於您最初抽樣的結果。特定引導樣本中重複病例的存在代表了基礎總體中具有接近該特定重複病例特徵的成員。正如您所建議的,也可以使用留一個或留幾個方法,但這是交叉驗證而不是引導。
我認為這幾乎只是將@kjetil_b_halvorsen 的評論換成一句話