將統計中的完整性定義為不可能形成無偏估計的背後的直覺是什麼?000從中?
在經典統計中,有一個定義是統計 $ T $ 一組數據的 $ y_1, \ldots, y_n $ 被定義為完整的參數 $ \theta $ 不可能形成一個無偏估計 $ 0 $ 從它不平凡。也就是說,唯一的方法是 $ E h(T (y )) = 0 $ 對所有人 $ \theta $ 是有 $ h $ 是 $ 0 $ 幾乎可以肯定。
這背後有直覺嗎?這似乎是一種相當機械的定義方式,我知道以前有人問過這個問題,但想知道是否有一種非常容易理解的直覺可以讓入門學生更容易消化材料。
我將嘗試添加到其他答案。首先,完整性是一種技術條件,主要由使用它的定理證明。因此,讓我們從它們出現的一些相關概念和定理開始。
讓 $ X=(X_1,X_2,\dotsc,X_n) $ 表示 iid 數據的向量,我們將其建模為具有分佈 $ f(x;\theta), \theta \in \Theta $ 參數在哪裡 $ \theta $ 管理數據是未知的。 $ T=T(X) $ 是充分的,如果條件分佈 $ X \mid T $ 不依賴於參數 $ \theta $ . $ V=V(X) $ 是輔助的,如果分佈 $ V $ 不依賴於 $ \theta $ (家庭內 $ f(x;\theta) $ ). $ U=U(X) $ 如果期望為零,則它是零的無偏估計量,與 $ \theta $ . $ S=S(X) $ 如果任何零的無偏估計量基於 $ S $ 為零,也就是說,如果 $ \DeclareMathOperator{\E}{\mathbb{E}} \E g(S)=0 (\text{for all $\theta$}) $ 然後 $ g(S)=0 $ ae(對所有 $ \theta $ ).
現在,假設你有兩個不同的無偏估計量 $ \theta $ 基於充分的統計 $ T $ , $ g_1(T), g_2(T) $ . 也就是說,在符號 $$ \E g_1(T)=\theta ,\ \E g_2(T)=\theta $$ 和 $ \DeclareMathOperator{\P}{\mathbb{P}} \P(g_1(T) \not= g_2(T) ) > 0 $ (對所有人 $ \theta $ )。然後 $ g_1(T)-g_2(T) $ 是零的無偏估計量,不完全為零,證明 $ T $ 不完整。因此,充分統計的完整性 $ T $ 告訴我們只存在一個唯一的無偏估計量 $ \theta $ 基於 $ T $ . 這已經非常接近 Lehmann-Scheffé 定理了。
讓我們看一些例子。認為 $ X_1, \dotsc, X_n $ 現在在間隔上是 iid 均勻的 $ (\theta, \theta+1) $ . 我們可以證明( $ X_{(1)} < X_{(2)} < \dotsm < X_{(n)} $ 是訂單統計數據)對 $ (X_{(1)}, X_{(n)}) $ 是足夠的,但並不完整,因為差異 $ X_{(n)}-X_{(1)} $ 是輔助的;我們可以計算它的期望,讓它成為 $ c $ (這是一個函數 $ n $ 僅),然後 $ X_{(n)}-X_{(1)} -c $ 將是一個不完全為零的零的無偏估計量。因此,在這種情況下,我們的充分統計量是不完整和充分的。我們可以看到這意味著什麼:存在足夠統計量的函數,這些函數不能提供關於 $ \theta $ (在模型的上下文中)。這不可能發生在完全足夠的統計數據中;從某種意義上說,它具有最大的信息量,因為它的任何功能都不是非信息量的。另一方面,如果存在期望為零的最小充分統計量的某個函數,則可以將其視為噪聲項;模型中的干擾/噪聲項的期望為零。所以我們可以說不完全充分的統計確實包含一些噪音。
再看範圍 $ R=X_{(n)}-X_{(1)} $ 在這個例子中。因為它的分佈不依賴於 $ \theta $ , 它本身並不包含任何關於 $ \theta $ . 但是,加上足夠的統計數據,它確實如此!如何?看看案例在哪裡 $ R=1 $ 被觀察到。然後,在我們(已知為真實的)模型的上下文中,我們完全了解 $ \theta $ !也就是說,我們可以肯定地說 $ \theta = X_{(1)} $ . 您可以檢查任何其他值 $ \theta $ 然後導致 $ X_{(1)} $ 或者 $ X_{(n)} $ 在假設的模型下是不可能的觀察。另一方面,如果我們觀察 $ R=0.1 $ , 那麼可能值的範圍為 $ \theta $ 相當大(運動……)。
在這個意義上,輔助統計 $ R $ 確實包含一些關於我們可以估計的精度的信息 $ \theta $ 基於此數據和模型。在這個例子和其他例子中,輔助統計 $ R $ “接管樣本量的作用”。通常,置信區間等需要樣本量 $ n $ ,但在本例中,我們可以創建一個條件置信區間,僅使用 $ R $ , 不是 $ n $ (練習。)這是費舍爾的一個想法,即推斷應該以一些輔助統計數據為條件。
現在,巴蘇定理:如果 $ T $ 是完全足夠的,那麼它獨立於任何輔助統計量。也就是說,基於完全充分統計的推理更簡單,因為我們不需要考慮條件推理。以獨立於的統計量為條件 $ T $ 當然,不會改變任何東西。
然後,最後一個例子給出更多的直覺。將我們的均勻分佈示例更改為區間上的均勻分佈 $ (\theta_1, \theta_2) $ (和 $ \theta_1<\theta_2 $ )。在這種情況下,統計 $ (X_{(1)}, X_{(n)}) $ 是完整和充分的。發生了什麼變化?我們可以看到完整性確實是模型的一個屬性。在前一種情況下,我們有一個受限的參數空間。這種限制通過在訂單統計中引入關係破壞了完整性。通過消除這個限制,我們得到了完整性!所以,從某種意義上說,缺乏完整性意味著參數空間不夠大,通過擴大它,我們可以希望恢復完整性(從而更容易推理)。
其他一些由於參數空間的限制導致缺乏完整性的例子,
- 請參閱我的回答: Fisher 信息是什麼類型的信息?
- 讓 $ X_1, \dotsc, X_n $ 獨立同居 $ \mathcal{Cauchy}(\theta,\sigma) $ (位置尺度模型)。那麼訂單統計就足夠了,但並不完整。但是現在把這個模型擴大到一個完全非參數模型,仍然是獨立同分佈但來自一些完全未指定的分佈 $ F $ . 那麼訂單統計就足夠完整了。
- 對於具有規範參數空間(即盡可能大)的指數族,最小充分統計量也是完整的。但在許多情況下,對參數空間引入限制(如彎曲指數族)會破壞完整性。
一篇非常相關的論文是Lehmann (1981), J. Am. 統計。副教授。, 76 , 374,“完整性和巴蘇定理的解釋”。