R
回歸模型中係數的標準誤差的含義?
回憶一下簡單線性回歸的模型 $$ y_i = \beta_0 + \beta_1 x_i + \varepsilon_i. $$
我正在閱讀係數的標準誤差 $ \beta_0 $ 和 $ \beta_1 $ . 作為一個實驗,我使用生成了一些線性數據 $ \beta_0 = 1 $ 和 $ \beta_1 = 2 $ 並添加了一些具有單位方差的高斯噪聲。因此,當我擬合數據
lm
函數並使用該summary
函數檢查模型時,我得到以下輸出: $$ \begin{align} \hat \beta_0 & = 1.21054 \quad \text{with Std. Error} = 0.11508, \ \hat \beta_1 & = 1.87723 \quad \text{with Std. Error} = 0.09844. \end{align} $$那麼如何解釋標準誤差值呢?例如,採取 $ \hat \beta_0 $ , 究竟是什麼 $ 0.11508 $ 告訴我?
顯然,如果我第二次運行模擬,這次添加具有更高方差的高斯噪聲,標準誤差會隨著噪聲中的額外方差顯示為係數標準誤差的增加而增加。但是,如果我們孤立地考慮第一個模擬,那麼這個值是多少? $ 0.11508 $ 意思是?
標準誤差是抽樣變異性估計值的平方根 $ \hat\beta_j $ 作為估計者 $ \beta_j $ , 要么 $ \sqrt{\widehat{Var}(\hat\beta_j)} $ .
由於這是一個句子中的很多東西,一步一步:
- “平方根”:應該是不言自明的,將方差轉化為標準差(這就是我們需要的,例如 t 統計量和置信區間)。
- " $ \hat\beta_j $ 作為估計者 $ \beta_j $ “:我們使用 LS 估計器來估計未知參數 $ \beta_j $ .
- 為此,我們使用了來自基礎人群的樣本。如果我們再抽取一個樣本(或者明天再抽取一個,等等),我們將得到另一個估計值 $ \hat\beta_j $ . 這是抽樣變異的來源。我們可以通過方差來總結這種可變性, $ Var(\hat\beta_j) $ . 例如,可以在此處找到該方差的表達式。
- “抽樣變異性的估計”: $ Var(\hat\beta_j) $ 取決於未知量(例如您生成的高斯噪聲的方差),因此必須估計,如公式所捕獲 $ \widehat{Var}(\hat\beta_j) $ . 例如,這裡給出了這個估計量的公式,或者,更介紹性的是,這裡給出。