向外行解釋為什麼自舉有效
我最近使用 bootstrapping 來估計項目的置信區間。最近有一個不太了解統計的人請我解釋為什麼自舉有效,即為什麼一遍又一遍地重新採樣相同的樣本會產生好的結果。我意識到雖然我花了很多時間來了解如何使用它,但我並不真正理解引導程序的工作原理。
具體來說:如果我們從樣本中重新抽樣,我們如何了解總體而不是樣本?那裡似乎有一個飛躍,這有點違反直覺。
我在這裡找到了這個問題的一些答案,我理解了一半。特別是這個。我是統計學的“消費者”,而不是統計學家,而且我與比我了解的統計學知識少得多的人一起工作。那麼,有人可以用最少的定理參考來解釋引導程序背後的基本推理嗎?也就是說,如果你必須向你的鄰居解釋,你會怎麼說?
我通常給出的中等長度版本是這樣的:
你想問一個人口問題,但你不能。所以你取一個樣本,然後問它的問題。現在,您對樣本答案接近總體答案的把握程度顯然取決於總體結構。您可能會了解這一點的一種方法是一次又一次地從總體中抽取樣本,向他們提出問題,然後查看樣本答案的可變性。由於這是不可能的,您可以對總體的形狀做出一些假設,或者您可以使用您實際必須了解 的樣本中的信息。
想像一下,您決定做出假設,例如它是正常的、伯努利或其他一些方便的虛構。遵循前面的策略,您可以再次了解當被問及樣本時,您的問題的答案可能會有所不同,具體取決於您碰巧獲得的特定樣本,方法是重複生成與您擁有的樣本大小相同的樣本並詢問它們相同的樣本問題。就您選擇計算方便的假設而言,這將是直截了當的。(確實特別方便的假設加上非平凡的數學可以讓您完全繞過採樣部分,但我們將在這裡故意忽略它。)
如果您樂於做出假設,這似乎是一個好主意。想像你不是。另一種方法是取您擁有的樣本並從中取樣。您可以這樣做,因為您擁有的樣本也是一個總體,只是一個非常小的離散樣本;它看起來像您的數據的直方圖。“替換”抽樣只是一種方便的方式,可以將樣本視為一個總體,並以反映其形狀的方式從中進行抽樣。
這是一個合理的做法,因為您擁有的樣本不僅是最好的,而且是您掌握的關於總體實際情況的唯一信息,而且因為大多數樣本如果是隨機選擇的,看起來很像他們來自的人口。因此,您的可能也是如此。
對於直覺,重要的是要考慮如何通過聚合以各種方式和各種假設生成的採樣信息來了解可變性。完全忽略封閉形式數學解決方案的可能性對於弄清楚這一點很重要。