關於參數和非參數自舉的問題

January 8, 2013

我正在閱讀 Kevin Murphy 的書“機器學習 - 概率視角”中關於頻繁統計的章節。關於引導程序的部分內容如下：

bootstrap 是一種簡單的蒙特卡羅技術，用於近似採樣分佈。這在估計器是真實參數的複雜函數的情況下特別有用。

這個想法很簡單。如果我們知道真實的參數，我們可以產生很多（比如說) 假數據集，每個大小，從真實分佈，，為了. 然後我們可以從每個樣本中計算我們的估計量，並使用所得樣本的經驗分佈作為我們對抽樣分佈的估計。自從是未知的，參數引導的想法是使用反而。

另一種稱為非參數引導的替代方法是對（有替換）來自原始數據，然後像以前一樣計算誘導分佈。在 (Kleiner et al. 2011) 中討論了一些在應用於海量數據集時加速引導程序的方法。

1 . 文字說：

如果我們知道真實的參數…我們可以從每個樣本中計算出我們的估計量，…

但是如果我已經知道真實參數，為什麼還要使用每個樣本的估計器?

2 . 另外，經驗分佈和抽樣分佈之間有什麼區別？

3 . 最後，我不太了解本文中參數和非參數引導程序之間的區別。他們都推斷從觀察集，但究竟有什麼區別？

miura 給出的答案並不完全準確，所以我為後代回答這個老問題：

(2)。這些是非常不同的事情。經驗 cdf 是對生成數據的 CDF（分佈）的估計。準確地說，分配概率的是離散 CDF對於每個觀察到的數據點，, 對於每個. 這個估計器收斂到真正的 cdf：幾乎可以肯定每個（實際上是一致的）。

統計量的抽樣分佈而是您希望在重複實驗下看到的統計數據的分佈。也就是說，您執行一次實驗並收集數據.是您數據的函數：. 現在，假設您重複實驗並收集數據. 在新樣本上重新計算 T 給出. 如果我們收集 100 個樣本，我們將有 100 個估計. 這些觀察形成抽樣分佈. 這是一個真正的分佈。隨著實驗次數趨於無窮，其均值收斂於及其方差.

一般來說，我們當然不會重複這樣的實驗，我們只會看到一個實例. 弄清楚什麼是方差如果你不知道潛在的概率函數，那麼來自單個觀察是非常困難的先驗。自舉是一種估計樣本分佈的方法通過人為地運行“新實驗”來計算新的實例. 每個新樣本實際上只是原始數據的重新採樣。這為您提供了比原始數據更多的信息，這很神秘，而且非常棒。

(1)。你是對的——你不會這樣做。作者試圖通過將參數引導程序描述為“如果你知道分佈，你會做什麼”來激勵參數引導，但是用一個非常好的分佈函數估計量 - 經驗 cdf。

例如，假設您知道您的檢驗統計量正態分佈，均值為 0，方差為 1。你如何估計抽樣分佈? 好吧，既然你知道分佈，估計抽樣分佈的一個愚蠢而多餘的方法是使用 R 生成 10,000 個左右的標準正態隨機變量，然後取它們的樣本均值和方差，並將它們用作我們對均值和的抽樣分佈的方差.

如果我們不知道先驗的參數，但我們知道它是正態分佈的，我們可以做的是從經驗 cdf 中生成 10,000 個左右的樣本，計算在他們每個人上，然後取這 10,000 個樣本的均值和方差s，並將它們用作我們對期望值和方差的估計. 由於經驗 cdf 是對真實 cdf 的良好估計，因此樣本參數應該收斂到真實參數。這是參數引導：您在要估計的統計數據上建立一個模型。模型由參數索引，例如，您從 ecdf 的重複抽樣中估計。

(3)。非參數引導甚至不需要您先驗地知道是正態分佈的。相反，您只需從 ecdf 中抽取重複樣本，然後計算在每一個上。在您抽取了 10,000 個左右的樣本併計算了 10,000 個之後s，您可以繪製估計值的直方圖。這是樣本分佈的可視化. 非參數引導程序不會告訴您採樣分佈是正態分佈還是伽馬分佈等，但它允許您（通常）根據需要精確估計採樣分佈。與參數引導程序相比，它做出的假設更少，提供的信息更少。當參數假設為真時精度較低，但當參數假設為假時精度更高。您在遇到的每種情況下使用哪一個完全取決於上下文。誠然，更多人熟悉非參數引導程序，但通常一個弱參數假設會使一個完全難以處理的模型易於估計，這很可愛。

引用自：https://stats.stackexchange.com/questions/47253

關於參數和非參數自舉的問題

相關問答

貝葉斯分析僅用作計算工具？

貝葉斯如何解釋磷(X=x|θ=c)磷(X=X|θ=C)P(X=x|theta=c)，這在解釋後驗時是否構成挑戰？

我應該多認真地思考不同的統計學哲學？

常客術語中的“參數固定且數據變化”和貝葉斯術語中的“參數變化且數據固定”究竟是什麼意思？

“即使我輸了，這也是正確的比賽”

固定效應的頻率論定義是什麼？