為什麼“X 中的錯誤”模型沒有得到更廣泛的使用?
當我們計算回歸係數的標準誤差時,我們沒有考慮設計矩陣中的隨機性 $ X $ . 例如,在 OLS 中,我們計算 $ \text{var}(\hat{\beta}) $ 作為 $ \text{var}((X^TX)^{-1}X^TY) = \sigma^2(X^TX)^{-1} $
如果 $ X $ 被認為是隨機的,總方差定律在某種意義上要求方差的額外貢獻 $ X $ 也是。IE
$$ \text{var}(\hat{\beta}) = \text{var}(E(\hat{\beta}|X)) + E(\text{var}(\hat{\beta}|X)). $$
其中,如果 OLS 估計量真正無偏,則第一項消失,因為期望是一個常數。第二項實際上變成: $ \sigma^2 \text{cov}(X)^{-1} $ .
- 如果參數模型為 $ X $ 眾所周知,我們為什麼不替換 $ X^TX $ 與實際的協方差估計。例如,如果 $ X $ 是隨機治療分配,應該是二項式方差 $ E(X)(1-E(X)) $ 是一個更有效的估計?
- 為什麼我們不考慮使用靈活的非參數模型來估計 OLS 估計中可能的偏差來源,並適當考慮對設計的敏感性(即 $ X $ ) 在第一個總方差定律項中 $ \text{var}(E(\hat{\beta}|X)) $ ?
您的問題(加上評論中的進一步評論)似乎最感興趣的是我們有一個隨機對照試驗,其中研究人員根據一些隨機化設計隨機分配一個或多個解釋變量。在這種情況下,您想知道為什麼我們使用將解釋變量視為已知常數的模型,而不是將它們視為隨機化所施加的抽樣分佈中的隨機變量。(您的問題比這更廣泛,但這似乎是評論中主要關注的情況,所以這是我要解決的問題。)
在這種情況下,我們以解釋變量為條件的原因是,在 RCT 的回歸問題中,我們仍然對給定預測變量的響應變量的條件分佈感興趣。事實上,在 RCT 中,我們感興趣的是確定解釋變量的因果效應 $ X $ 關於響應變量 $ Y $ ,我們將通過對條件分佈的推斷來確定(遵守一些協議以防止混淆)。施加隨機化以打破解釋變量之間的依賴關係 $ X $ 以及任何可能的混淆變量(即,防止後門關聯)。 $ ^\dagger $ 但是,問題中的推理對象仍然是給定解釋變量的響應變量的條件分佈。因此,使用具有良好屬性的估計方法來估計條件分佈中的參數仍然是有意義的。
這是使用回歸技術申請 RCT 的正常情況。當然,在某些情況下,我們還有其他興趣,我們可能確實希望將解釋變量的不確定性納入其中。在解釋變量中加入不確定性通常發生在兩種情況下:
- (1) 當我們超越回歸分析並進入多變量分析時,我們感興趣的是解釋變量和響應變量的聯合分佈,而不僅僅是前者的條件分佈。可能存在我們感興趣的應用程序,因此我們將超越回歸分析,並結合有關解釋變量分佈的信息。
- (2) 在一些回歸應用中,我們的興趣是響應變量的條件分佈,其條件是一個潛在的未觀察到的解釋變量,我們假設觀察到的解釋變量會出現錯誤(“變量中的錯誤”)。在這種情況下,我們通過“變量中的錯誤”來合併不確定性。這樣做的原因是我們對這些情況的興趣在於條件分佈,以未觀察到的基礎變量為條件。
請注意,這兩種情況在數學上都比回歸分析更複雜,所以如果我們可以使用回歸分析,那通常是更可取的。無論如何,在回歸分析的大多數應用中,目標是在給定可觀察的解釋變量的情況下對響應的條件分佈進行推斷,因此這些概括變得不必要。
$ ^\dagger $ 請注意,隨機化將混雜變量的因果效應分離到隨機變量,但它不會將隨機變量的因果效應分離到混雜變量,然後再分離到響應。這意味著可能需要其他協議(例如,安慰劑、盲法等)來完全切斷因果分析中的所有後門關聯。