當且僅當統計數據平滑時，是否存在提供引導程序有效的結果？

April 5, 2016

在整個過程中，我們假設我們的統計數據是一些數據的函數這是從分佈函數中得出的; 我們樣本的經驗分佈函數是. 所以是被視為隨機變量的統計量，並且是統計數據的引導版本。我們用作為KS距離

如果統計量是簡單的線性統計量，則對於引導程序的有效性存在“當且僅當”結果。例如，來自 Mammen 的定理 1“引導程序何時工作？”

如果對於一些任意函數然後引導程序在某種意義上起作用

當且僅當存在和這樣我們可以在哪裡定義作為我們樣本的一些功能和

還有更一般的結果，引導程序適用於一般統計數據，例如來自 Politis Romano 和 Wolf 的 Subsampling 的定理 1.6.3：

認為是從具有有限支持的所有分佈的類中提取的。假設統計是 Frechet 可微分的關於最高範數和導數滿足. 然後是漸近正態的，並且 bootstrap 在前面定理的意義上起作用。

我想要第二個定理的“當且僅當”版本。這將需要一個與 Frechet 可微性不同的平滑概念，因為 Politis、Romano 和 Wolf (1999) 表明樣本中位數不是 Frechet 可微的，但 bootstrap 仍然有效。然而，樣本中位數仍然是數據的平滑函數。

Mammen 中有一些非正式的評論認為平滑是必要的：

通常，局部漸近線性似乎對於自舉的一致性是必要的

引文是：

範茲韋特 (W) (1989)。在奧爾伯沃爾法赫舉行的“統計中計算機密集程序的漸近方法”會議上發表的演講。

但是除了一些引用之外，我找不到這個談話的任何痕跡。

(1)為什麼分位數估計量不是 Frechet 可微分的，但它們的自舉估計量仍然是一致的？

在這種情況下，您需要 Hadamard 可微分性（或緊緻可微性，取決於您的參考源）作為使 bootstrap 工作的充分條件，中位數和任何分位數都是 Hadamard 可微分的。Frechet 可微分性在大多數應用中太強了。

由於通常討論波蘭空間就足夠了，因此您需要一個局部線性函數來應用典型的緊緻性參數來將您的一致性結果擴展到全局情況。另請參閱下面的線性化評論。

[Wasserman] 的定理 2.27 將讓您直觀地了解 Hadamard 導數如何是一個較弱的概念。[Shao&Tu] 的定理 3.6 和 3.7 將給出弱一致性的充分條件：-統計泛函的Hadamard可微性有觀察尺寸.

(2)什麼會影響bootstrap估計器的一致性？

[Shao&Tu]pp.85-86 說明了可能發生自舉估計器不一致的情況。

(1)bootstrap對種群尾部行為敏感. 的一致性需要比存在極限所需的更嚴格的矩條件.

(2) bootstrap estimator 的一致性要求從給定的統計量（泛函）有一定的平滑度.

(3) bootstrap 估計器的行為有時取決於用於獲取 bootstrap 數據的方法。

在 [Shao&Tu] 的第 3.5.2 節中，他們使用平滑內核重新審視了分位數示例. 請注意，矩是線性泛函，您的問題中的引用“通常局部漸近線性似乎對於引導的一致性是必要的”要求對泛函進行某種程度的分析，這可能是必要的，因為如果失敗，您可以創建一些病態案例像 Weierstrass 函數（它是連續的但無處可微）。

(3)為什麼局部線性在確保自舉估計器的一致性方面似乎是必要的？

至於您提到的 Mammen 發表的評論“典型的局部漸近線性似乎對於引導的一致性是必要的”。[Shao&Tu]p.78 的評論如下，因為他們評論說（全局）線性化只是一種有助於一致性證明的技術，並不表示任何必要性：

線性化是證明自舉估計器一致性的另一項重要技術，因為線性統計的結果通常是可用的，或者可以使用前面介紹的技術建立。假設給定的統計量 Tn 可以近似為線性隨機變量（在哪裡是一個線性統計量), 即 (3.19)

讓和成為的引導類似物和, 分別基於 bootstrap 樣本. 如果我們可以建立一個結果類似於（3.19），即（3.20）那麼極限（在哪裡是參數的值）是一樣的.因此，我們將問題簡化為涉及“樣本均值”的問題，其引導分佈估計器可以使用第 3.1.2-3.1.4 節中的方法證明是一致的。

他們給出了一個例子 3.3 獲得 MLE 類型引導的引導一致性。然而，如果全局線性以這種方式有效，很難想像沒有局部線性如何證明一致性。所以我想這就是 Mammen 想說的。

(4)進一步評論

除了上面 [Shao&Tu] 提供的討論之外，我認為您想要的是自舉估計器一致性的表徵條件。

遺憾的是，我不知道一個非常普遍的分佈類別的自舉估計器的一致性特徵. 即使有一個我覺得它不僅需要平滑. 但是確實存在特定類別的統計模型的特徵，例如[Gine&Zinn] 中的類；或在波蘭空間上定義的通常緊湊支持的類（直接來自上面的討論）。

另外，如果我們的重點是經典漸近線（與經驗過程的“統一”漸近線相反），根據我的口味，Kolmogorov-Smirnov 距離是錯誤的距離。由於 KS 距離沒有引入弱拓撲，而弱拓撲是研究漸近行為的自然基礎，因此空間上的弱拓撲當焦點不是經驗過程時，由 [Huber] 和許多其他作者採用的有界 Lipschitz 距離（或 Prohorov-Levy 距離）誘導。有時對經驗過程的限制行為的討論也涉及到 BL 距離，如[Gine&Zinn]。

我討厭憤世嫉俗，但我仍然覺得這不是唯一“引用無效”的統計寫作。這麼說我只是覺得引用範茲韋特的演講是非常不負責任的，儘管範茲韋特是一位偉大的學者。

參考

[瓦瑟曼] 瓦瑟曼，拉里。所有非參數統計，Springer，2010。

[Shao&Tu]Shao, Jun, and Dongsheng Tu. 折刀和引導程序。斯普林格，1995 年。

[Gine&Zinn]Giné、Evarist 和 Joel Zinn。“引導一般經驗措施。” 概率年鑑（1990）：851-869。

[Huber]Huber, Peter J. 穩健統計。威利，1985 年。

引用自：https://stats.stackexchange.com/questions/205540

comments powered by Disqus

當且僅當統計數據平滑時，是否存在提供引導程序有效的結果？

相關問答

對於所有類型的分佈，均值的 CDF 是否始終為 0.5？

關於文章“拋棄 p 值。改用 Bootstrap 置信區間”的三個問題

MLE 和非正態性

離散變量和連續變量。定義是什麼？

Westfall 說，“峰度的比例由中央決定μ±σμ±σmupmsigma範圍通常很小”但反過來是真的嗎？

如果是是Y獨立於X1X1X_{1}和X2X2X_{2}, 是否表明是是Y也獨立於X1+X2X1+X2X_{1}+X_{2}?