Regression

計量經濟學中的回歸和因果關係

  • November 14, 2018

在一般回歸中,特別是在線性回歸中,有時允許對參數進行因果解釋。至少在計量經濟學文獻中,但不僅如此,何時允許因果解釋並不那麼清楚;有關討論,您可以查看:回歸和因果關係:對六本計量經濟學教科書的批判性檢查- Chen 和 Pearl(2013 年)。

為了在統計模型中正確處理因果關係,最好的方法可能是使用結構因果模型,例如(很快)在:Trygve Haavelmo 和因果微積分的出現– 珍珠 2012 年 2 月。

然而,目前,這些並不是基礎計量經濟學模型(經典多元線性回歸)中的標準方法。Indeed 經常使用“真實模型”或“數據生成過程”的概念,這些概念有時具有明確的因果意義。無論如何,我只想考慮因果關係。因此,如果我們估計“真實模型”的樣本對應物,我們就可以對參數進行因果解釋。

牢記上述考慮,我的嘗試是掌握

  • “真實模型”概念(當前計量經濟學教科書)和結構因果模型(Pearl)之間的聯繫……如果有的話。
  • 前一點與實驗室中使用的 隨機對照實驗概念之間的聯繫,有時是計量經濟學觀察研究中的參考點(儘管如此*)*。例如 Stock 和 Watson (2013) 對此進行了大量討論(尤其是第 13 章)。此外,在 Pearl 2012feb 第 14 頁中,“結構主義者”和“實驗主義者”之間的辯論評論與這一點密切相關。

你能在最簡單的情況下向我解釋一下這兩點嗎?

在您給出的珍珠論文的上下文中,大多數計量經濟學家所說的真實模型是結構因果模型的輸入 I-1:一組假設 $ A $ 和一個模型 $ M_A $ 將這些假設編碼為結構方程系統(如模型 1 和模型 2 中所示)和與變量相關的統計假設列表。一般來說,真正的模型不需要是遞歸的,因此相應的圖可以有循環。

**什麼是真實模型的示例?**考慮 Angrist 和 Pischke(2009 年)第 3.2 節中描述的學校教育和收入之間的關係。對於個人 $ i $ , 計量學家所說的真實模型是映射任何教育水平的假設函數 $ s $ 到一個結果 $ y_{si} $ : $$ y_{si} = f_i(s). $$ 這正是潛在的結果。人們可以更進一步,假設一個參數函數形式 $ f_i(s) $ . 例如,線性常數影響因果模型: $$ f_i(s) = \alpha + \rho s + \eta_i. $$ 這裡, $ \alpha $ 和 $ \rho $ 是未觀察到的參數。通過這樣寫,我們假設 $ \eta_i $ 不依賴於 $ s $ . 用珀爾的話說,這告訴我們,如果我們將個人的學校教育固定在 $ s_i = s_0 $ ,但我們沒有觀察到 $ \eta_i $ : $$ E[y_{si} \mid do(s_i = s_0)] = E[f_i(s_0)] = \alpha + \rho s_0 + E[\eta_i]. $$ 我們還沒有說我們感興趣的查詢,或者我們有什麼數據。所以“真正的模型”並不是一個完整的單片機。(這通常是正確的,不僅僅是在這個例子中。)

**真實模型和隨機實驗之間有什麼聯繫?**假設一個計量經濟學家想要估計 $ \rho $ . 只是觀察 $ (s_i, y_i) $ 對於一群人來說是不夠的。這與珀爾關於統計條件的觀點相同。這裡 $$ E[y_{si} \mid s_i = s_0] = E[f_i(s_0) \mid s_i = s_0] = \alpha + \rho s_0 + E[\eta_i \mid s_i = s_0]. $$ 正如 Angrist 和 Pischke 指出的那樣, $ \eta_i $ 可能與 $ s_i $ 在觀察數據中,由於選擇偏差:一個人對學校教育的決定可能取決於她的價值 $ \eta_i $ .

隨機實驗是糾正這種相關性的一種方法。在這里松散地使用珀爾的符號,如果我們隨機分配我們的主題 $ do(s_i = s_0) $ 和 $ do(s_i = s_1) $ 然後我們可以估計 $ E[y_{si} \mid do(s_i = s_1)] $ 和 $ E[y_{si} \mid do(s_i = s_0)] $ . 然後 $ \rho $ 是(誰)給的: $$ E[y_{si} \mid do(s_i = s_1)] - E[y_{si} \mid do(s_i = s_0)] = \rho(s_1 - s_0). $$

有了額外的假設和數據,還有其他方法可以糾正相關性。隨機實驗只被認為是“最好的”,因為我們可能不相信其他假設。例如,使用條件獨立假設和其他數據,我們可以估計 $ \rho $ 由 OLS 提供;或者我們可以引入工具變量。

編輯 2 (CIA):這主要是一個哲學觀點,Angrist 和 Pischke 可能不同意我在這裡的介紹。條件獨立假設(對可觀察的選擇)讓我們糾正選擇偏差。它增加了一個關於聯合分佈的假設: $$ f_i(s) \perp!!!\perp s_i \mid X_i $$ 對所有人 $ s $ . 僅使用條件期望代數(參見 Angrist 和 Pischke 的推導),我們可以寫出 $$ y_i = f_i(s_i) = \alpha + \rho s_i + X_i' \gamma + v_i $$ 和 $ E[v_i \mid X_i, s_i] = 0 $ . 這個方程允許我們估計 $ \rho $ 在使用 OLS 的數據中。

隨機化和 CIA 都沒有進入定義真實模型的方程組。它們是統計假設,為我們提供了使用我們擁有的數據來估計我們已經定義的模型的參數的方法。計量經濟學家通常不會將 CIA 視為真實模型的一部分,但珀爾會將其納入 $ A $ .

引用自:https://stats.stackexchange.com/questions/377004

comments powered by Disqus