Mean

為什麼這個估計器不是無偏的?

  • April 3, 2021

假設我們有一個 IID 樣本 $ X_1, X_2, \cdots, X_n $ 與每個 $ X_i $ 分佈為 $ \mathcal{N}(\mu, \sigma^2) $ . 現在假設我們為均值構建(一個相當特殊的)估計器 $ \mu $ :我們只從樣本中選擇大於預定值的值,比如 $ 1 $ ,然後僅取這些值的樣本平均值:

$$ \hat{\mu}=\frac{1}{n_1}\sum\limits_{X_i > 1} X_i $$

這裡 $ n_1 $ 是大於的值的數量 $ 1 $ . 現在我期待這個估計器有很大的偏差。但是,我們有:

$$ \mathbb{E}(\hat{\mu}) = \frac{1}{n_1}\sum\limits_{X_i>1}\mathbb{E}(X_i)=\frac{1}{n_1}n_1\mu=\mu $$

這僅僅意味著估計器是無偏的!但顯然,如果我通過生成許多數字並只選擇那些大於 $ 1 $ , 我永遠不會得到小於 $ 1 $ 所以估計器必須有偏差。我錯過了什麼?

鑑於 $ n_1 $ 是一個隨機變量(正如評論中已經指出的那樣),預期值可以計算為 $ E(\hat\mu)=E_{n_1}[E_{\hat \mu}(\hat\mu|n_1)] $ . 對於內心的期望,注意不能只寫 $ E_{\hat \mu}(\hat\mu|n_1)=\frac{1}{n_1}\sum_{X_i>1}E(X_i), $ 因為期望值不能依賴於某些特定值 $ X_i $ ,作為總和所必需的。所以$$ E_{\hat \mu}(\hat\mu|n_1)=\frac{1}{n_1}E\left[\sum_{X_i>1} X_i|n_1\right]. $$對於給定的 $ n_1 $ ,我們可以寫出,對索引進行適當的重新編號, $ \sum_{X_i>1} X_i=\sum_{j=1}^{n_1} X_j^* $ , 在哪裡 $ X_j^* $ 是根據截斷正態分佈分佈的隨機變量 $ a=1 $ 和 $ b=\infty $ . 讓 $ E_{\mu,\sigma^2,a,b}X $ 表示這種截斷法線的期望。為了 $ a=1, b=\infty, $ $$ E_{\mu,\sigma^2,1,\infty}X=\mu+\frac{\varphi\left(\frac{1-\mu}{\sigma}\right)}{1-\Phi\left(\frac{1-\mu}{\sigma}\right)}\sigma=t>\mu, $$見https://en.wikipedia.org/wiki/Truncated_normal_distribution。調節 $ n_1 $ , 我們有$$ E_{\hat \mu}(\hat\mu|n_1)=\frac{1}{n_1}\sum_{j=1}^{n_1} E(X_j^*)=\frac{1}{n_1}n_1 E_{\mu,\sigma^2,1,\infty}(X)=t>\mu. $$這不取決於 $ n_1 $ (除非 $ n_1=0 $ , 在這種情況下總和為空並且 $ E_{\hat \mu}(\hat\mu|n_1=0)=0 $ ),所以最終$$ E(\hat \mu)=P{n_1>0}t. $$ 這是 $ >\mu $ (偏見!)如果 $ \mu\le 0 $ , 並且如果 $ P{n_1=0} $ 足夠小 $ P{n_1>0}t>\mu $ , 除非 $ n $ 非常小(可能導致大 $ P{n_1=0} $ ,其值在西安的解中給出)。

PS:看到西安的解決方案,我更正了這個,誰做對了我忘記的事情。據我所知,該解決方案是完全正確的,但是我到達那裡的不同方式也可能有所幫助。

PPS:我接受 $ \hat \mu=0 $ 以防萬一 $ n_1=0 $ ,這在問題中並不完全清楚。

引用自:https://stats.stackexchange.com/questions/518004

comments powered by Disqus