參數可估計性問題
讓和是四個隨機變量,使得, 在哪裡是未知參數。還假設,那麼哪一個是真的呢?
一個。是可估計的。
B.是可估計的。
C。是可估計的並且是的最佳線性無偏估計.
D.是可估計的。
給出的答案是 C,這對我來說看起來很奇怪(因為我得到了 D)。
**為什麼我得了D?**自從,.
**為什麼我不明白 C 可能是一個答案?**好的,我可以看到,是一個無偏估計量, 其方差小於.
請告訴我我在哪裡做錯了。
還張貼在這裡:https ://math.stackexchange.com/questions/2568894/a-problem-on-estimability-of-parameters
這個答案強調可估計性的驗證。最小方差屬性是我的次要考慮因素。
首先,用線性模型的矩陣形式總結信息如下: $$ \begin{align} Y := \begin{bmatrix} Y_1 \ Y_2 \ Y_3 \ Y_4 \end{bmatrix} = \begin{bmatrix} 1 & 0 & -1 \ 1 & 1 & -1 \ 1 & 0 & -1 \ 1 & -1 & -1 \ \end{bmatrix} \begin{bmatrix} \theta_1 \ \theta_2 \ \theta_3 \end{bmatrix} + \begin{bmatrix} \varepsilon_1 \ \varepsilon_2 \ \varepsilon_3 \ \varepsilon_4 \end{bmatrix}:= X\beta + \varepsilon, \tag{1} \end{align} $$ 在哪裡 $ E(\varepsilon) = 0, \text{Var}(\varepsilon) = \sigma^2 I $ (為了討論可估計性,不需要球形假設。但是為了討論高斯-馬爾可夫性質,我們確實需要假設球形 $ \varepsilon $ )。
如果設計矩陣 $ X $ 是滿秩的,那麼原始參數 $ \beta $ 承認唯一的最小二乘估計 $ \hat{\beta} = (X’X)^{-1}X’Y $ . 因此,任何參數 $ \phi $ , 定義為線性函數 $ \phi(\beta) $ 的 $ \beta $ 是可估計的,因為它可以通過最小二乘估計由數據明確估計 $ \hat{\beta} $ 作為 $ \hat{\phi} = p'\hat{\beta} $ .
當微妙出現時 $ X $ 不是滿級。為了進行徹底的討論,我們首先在下面修復一些符號和術語(我遵循線性模型的無坐標方法的約定,第 4.8 節。一些術語聽起來不必要的技術性)。此外,討論適用於一般線性模型 $ Y = X\beta + \varepsilon $ 和 $ X \in \mathbb{R}^{n \times k} $ 和 $ \beta \in \mathbb{R}^k $ .
- 回歸流形是平均向量的集合 $ \beta $ 變化超過 $ \mathbb{R}^k $ : $$ M = {X\beta: \beta \in \mathbb{R}^k}. $$ 2.參數泛函 $ \phi = \phi(\beta) $ 是一個線性泛函 $ \beta $ , $$ \phi(\beta) = p'\beta = p_1\beta_1 + \cdots + p_k\beta_k. $$
如上所述,當 $ \text{rank}(X) < k $ , 不是每個參數泛函 $ \phi(\beta) $ 是可估計的。但是,等等,技術上可估計的術語的定義是什麼?如果不打擾一點線性代數,似乎很難給出一個清晰的定義。我認為最直觀的一個定義如下(來自上述相同的參考):
***定義 1.***參數泛函 $ \phi(\beta) $ 是可估計的,如果它是唯一確定的 $ X\beta $ 在某種意義上說 $ \phi(\beta_1) = \phi(\beta_2) $ 每當 $ \beta_1,\beta_2 \in \mathbb{R}^k $ 滿足 $ X\beta_1 = X\beta_2 $ .
**解釋。**上面的定義規定了從回歸流形的映射 $ M $ 到參數空間 $ \phi $ 必須是一對一的,這保證了 $ \text{rank}(X) = k $ (即,當 $ X $ 本身是一對一的)。什麼時候 $ \text{rank}(X) < k $ , 我們知道存在 $ \beta_1 \neq \beta_2 $ 這樣 $ X\beta_1 = X\beta_2 $ . 上面的可估計定義實際上排除了那些導致不同值本身的結構缺陷參數泛函,即使在相同的值上 $ M $ ,這自然沒有意義。另一方面,一個可估計的參數泛函 $ \phi(\cdot) $ 確實允許這種情況 $ \phi(\beta_1) = \phi(\beta_2) $ 和 $ \beta_1 \neq \beta_2 $ , 只要條件 $ X\beta_1 = X\beta_2 $ 被履行。
還有其他等效條件來檢查同一參考文獻中給出的參數泛函的可估計性,即命題 8.4。
經過這麼冗長的背景介紹,讓我們回到你的問題。
一個。 $ \beta $ 本身是不可估計的,因為 $ \text{rank}(X) < 3 $ ,這需要 $ X\beta_1 = X\beta_2 $ 和 $ \beta_1 \neq \beta_2 $ . 儘管上述定義是針對標量泛函給出的,但它很容易推廣到向量值泛函。
B. $ \phi_1(\beta) = \theta_1 + \theta_3 = (1, 0, 1)'\beta $ 是不可估量的。也就是說,考慮 $ \beta_1 = (0, 1, 0)' $ 和 $ \beta_2 = (1, 1, 1)' $ , 這使 $ X\beta_1 = X\beta_2 $ 但 $ \phi_1(\beta_1) = 0 + 0 = 0 \neq \phi_1(\beta_2) = 1 + 1 = 2 $ .
C。 $ \phi_2(\beta) = \theta_1 - \theta_3 = (1, 0, -1)'\beta $ 是可估計的。因為 $ X\beta_1 = X\beta_2 $ 瑣碎地暗示 $ \theta_1^{(1)} - \theta_3^{(1)} = \theta_1^{(2)} - \theta_3^{(2)} $ , IE, $ \phi_2(\beta_1) = \phi_2(\beta_2) $ .
D. $ \phi_3(\beta) = \theta_2 = (0, 1, 0)'\beta $ 也是可想而知。派生自 $ X\beta_1 = X\beta_2 $ 到 $ \phi_3(\beta_1) = \phi_3(\beta_2) $ 也是微不足道的。
可估計性驗證後,有一個定理(命題 8.16,同參考)聲稱高斯-馬爾可夫性質 $ \phi(\beta) $ . 基於該定理,選項 C 的第二部分是不正確的。最好的線性無偏估計是 $ \bar{Y} = (Y_1 + Y_2 + Y_3 + Y_4)/4 $ ,由下面的定理。
***定理。***讓 $ \phi(\beta) = p'\beta $ 是一個可估計的參數泛函,那麼它的最佳線性無偏估計(又名高斯-馬爾可夫估計)是 $ \phi(\hat{\beta}) $ 對於任何解決方案 $ \hat{\beta} $ 到正規方程 $ X’X\hat{\beta} = X’Y $ .
證明如下:
*證明。*簡單的計算表明,正規方程是 $$ \begin{equation} \begin{bmatrix} 4 & 0 & -4 \ 0 & 2 & 0 \ -4 & 0 & 4 \end{bmatrix} \hat{\beta} = \begin{bmatrix} 1 & 1 & 1 & 1 \ 0 & 1 & 0 & -1 \ -1 & -1 & -1 & -1 \end{bmatrix} Y, \end{equation} $$ 簡化後是 $$ \begin{equation} \begin{bmatrix} \phi(\hat{\beta}) \ \hat{\theta}_2/2 \ -\phi(\hat{\beta}) \end{bmatrix} = \begin{bmatrix} \bar{Y} \ (Y_2 - Y_4)/4 \ -\bar{Y} \end{bmatrix}, \end{equation} $$ IE, $ \phi(\hat{\beta}) = \bar{Y} $ .
因此,選項 D 是唯一正確的答案。
附錄:可估計性和可識別性的聯繫
我在學校的時候,一位教授簡單地提到了參數泛函的可估計性 $ \phi $ 對應於模型可識別性。我當時認為這種說法是理所當然的。但是,需要更明確地說明等效性。
根據 AC Davison 的專著Statistical Models p.144,
***定義 2.*一個參數模型,其中每個參數 $ \theta $ 生成不同的分佈稱為可識別的。
對於線性模型 $ (1) $ , 無論球麵條件如何 $ \text{Var}(\varepsilon) = \sigma^2 I $ , 可以改寫為 $$ \begin{equation} E[Y] = X\beta, \quad \beta \in \mathbb{R}^k. \tag{2} \end{equation} $$
這是一個如此簡單的模型,我們只指定了響應向量的一階矩形式 $ Y $ . 什麼時候 $ \text{rank}(X) = k $ , 模型 $ (2) $ 是可識別的,因為 $ \beta_1 \neq \beta_2 $ 暗示 $ X\beta_1 \neq X\beta_2 $ (原定義中的“分佈”一詞,自然歸結為模型下的“均值” $ (2) $ .)。
現在假設 $ \text{rank}(X) < k $ 和給定的參數泛函 $ \phi(\beta) = p'\beta $ ,我們如何協調定義1和定義2?
好吧,通過操縱符號和單詞,我們可以證明(“證明”是相當微不足道的) $ \phi(\beta) $ 相當於模型 $ (2) $ 參數化時可識別 $ \phi = \phi(\beta) = p'\beta $ (設計矩陣 $ X $ 可能會相應改變)。為了證明,假設 $ \phi(\beta) $ 是可估計的,使得 $ X\beta_1 = X\beta_2 $ 暗示 $ p'\beta_1 = p'\beta_2 $ ,根據定義,這是 $ \phi_1 = \phi_2 $ , 因此模型 $ (2) $ 索引時可識別 $ \phi $ . 相反,假設模型 $ (2) $ 是可識別的,因此 $ X\beta_1 = X\beta_2 $ 暗示 $ \phi_1 = \phi_2 $ ,這是微不足道的 $ \phi_1(\beta) = \phi_2(\beta) $ .
直覺上,當 $ X $ 是降級的,模型與 $ \beta $ 是參數冗餘(參數太多),因此非冗餘的低維重新參數化(可能由一組線性泛函組成)是可能的。這種新的代表什麼時候可能?關鍵是可估計性。
為了說明上述陳述,讓我們重新考慮您的示例。我們已經驗證了參數泛函 $ \phi_2(\beta) = \theta_1 - \theta_3 $ 和 $ \phi_3(\beta) = \theta_2 $ 是可估計的。因此,我們可以重寫模型 $ (1) $ 就重新參數化的參數而言 $ (\phi_2, \phi_3)' $ 如下 $$ \begin{equation} E[Y] = \begin{bmatrix} 1 & 0 \ 1 & 1 \ 1 & 0 \ 1 & - 1 \end{bmatrix} \begin{bmatrix} \phi_2 \ \phi_3 \end{bmatrix} = \tilde{X}\gamma. \end{equation} $$
顯然,由於 $ \tilde{X} $ 是滿排的,具有新參數的模型 $ \gamma $ 是可識別的。