關於參數和非參數自舉的問題
我正在閱讀 Kevin Murphy 的書“機器學習 - 概率視角”中關於頻繁統計的章節。關於引導程序的部分內容如下:
bootstrap 是一種簡單的蒙特卡羅技術,用於近似採樣分佈。這在估計器是真實參數的複雜函數的情況下特別有用。
這個想法很簡單。如果我們知道真實的參數,我們可以產生很多(比如說) 假數據集,每個大小,從真實分佈,, 為了. 然後我們可以從每個樣本中計算我們的估計量, 並使用所得樣本的經驗分佈作為我們對抽樣分佈的估計。自從是未知的,參數引導的想法是使用反而。
另一種稱為非參數引導的替代方法是對 (有替換)來自原始數據,然後像以前一樣計算誘導分佈。在 (Kleiner et al. 2011) 中討論了一些在應用於海量數據集時加速引導程序的方法。
- 1 . 文字說:
如果我們知道真實的參數…我們可以從每個樣本中計算出我們的估計量,…
但是如果我已經知道真實參數 ,為什麼還要使用每個樣本的估計器?
- 2 . 另外,經驗分佈和抽樣分佈之間有什麼區別?
- 3 . 最後,我不太了解本文中參數和非參數引導程序之間的區別。他們都推斷從觀察集,但究竟有什麼區別?
miura 給出的答案並不完全準確,所以我為後代回答這個老問題:
(2)。這些是非常不同的事情。經驗 cdf 是對生成數據的 CDF(分佈)的估計。準確地說,分配概率的是離散 CDF對於每個觀察到的數據點,, 對於每個. 這個估計器收斂到真正的 cdf:幾乎可以肯定每個(實際上是一致的)。
統計量的抽樣分佈而是您希望在重複實驗下看到的統計數據的分佈。也就是說,您執行一次實驗並收集數據.是您數據的函數:. 現在,假設您重複實驗並收集數據. 在新樣本上重新計算 T 給出. 如果我們收集 100 個樣本,我們將有 100 個估計. 這些觀察形成抽樣分佈. 這是一個真正的分佈。隨著實驗次數趨於無窮,其均值收斂於及其方差.
一般來說,我們當然不會重複這樣的實驗,我們只會看到一個實例. 弄清楚什麼是方差如果你不知道潛在的概率函數,那麼來自單個觀察是非常困難的先驗。自舉是一種估計樣本分佈的方法通過人為地運行“新實驗”來計算新的實例. 每個新樣本實際上只是原始數據的重新採樣。這為您提供了比原始數據更多的信息,這很神秘,而且非常棒。
(1)。你是對的——你不會這樣做。作者試圖通過將參數引導程序描述為“如果你知道分佈,你會做什麼”來激勵參數引導,但是用一個非常好的分佈函數估計量 - 經驗 cdf。
例如,假設您知道您的檢驗統計量正態分佈,均值為 0,方差為 1。你如何估計抽樣分佈? 好吧,既然你知道分佈,估計抽樣分佈的一個愚蠢而多餘的方法是使用 R 生成 10,000 個左右的標準正態隨機變量,然後取它們的樣本均值和方差,並將它們用作我們對均值和的抽樣分佈的方差.
如果我們不知道先驗的參數,但我們知道它是正態分佈的,我們可以做的是從經驗 cdf 中生成 10,000 個左右的樣本,計算在他們每個人上,然後取這 10,000 個樣本的均值和方差s,並將它們用作我們對期望值和方差的估計. 由於經驗 cdf 是對真實 cdf 的良好估計,因此樣本參數應該收斂到真實參數。這是參數引導:您在要估計的統計數據上建立一個模型。模型由參數索引,例如,您從 ecdf 的重複抽樣中估計。
(3)。非參數引導甚至不需要您先驗地知道是正態分佈的。相反,您只需從 ecdf 中抽取重複樣本,然後計算在每一個上。在您抽取了 10,000 個左右的樣本併計算了 10,000 個之後s,您可以繪製估計值的直方圖。這是樣本分佈的可視化. 非參數引導程序不會告訴您採樣分佈是正態分佈還是伽馬分佈等,但它允許您(通常)根據需要精確估計採樣分佈。與參數引導程序相比,它做出的假設更少,提供的信息更少。當參數假設為真時精度較低,但當參數假設為假時精度更高。您在遇到的每種情況下使用哪一個完全取決於上下文。誠然,更多人熟悉非參數引導程序,但通常一個弱參數假設會使一個完全難以處理的模型易於估計,這很可愛。