Multiple-Regression
省略的變量偏差:我需要包括哪些預測變量,為什麼?
在過去的幾周里,我一直在考慮回歸和解決方案(如何避免這個問題)的背景下的 OVB(省略變量偏差)。我熟悉 Shalizi 的講座(2.2),但他只是在數學上描述這一點。
本周有人說這很容易**——OVB 的解決方案是包括所有控制混雜協變量影響的預測變量,而不是所有因變量 Y 的預測變量**。
我不確定這是否屬實,是的,我確實覺得我缺乏更深入的知識。
這不一定是錯誤的,但並不總是可行的,也不是免費的午餐。
一個遺漏的變量可能會導致(例如,關於這個問題的更多想法,參見下面的評論)偏見,如果它(a)都與結果相關(b) 與預測變量相關誰的影響你主要感興趣。
考慮一個例子:你想了解額外的學校教育對以後收入的因果影響。另一個最肯定滿足條件 (a) 和 (b) 的變量是“動機”——更有動機的人在工作中會更成功(無論他們是否受過高等教育)並且通常會選擇接受更多的教育,因為他們可能喜歡學習,並且不會覺得為考試而學習太痛苦。
因此,在不控制動機的情況下比較受過高等教育和受教育程度較低的員工的收入時,您可能至少部分不會比較僅在受教育程度(您感興趣的影響)和他們的影響方面不同的兩組因此,觀察到的收入差異不應僅歸因於學校教育的差異。
現在,通過將動機包含在回歸中來控制動機確實是一種解決方案。可能的問題當然是:你會有關於動機的數據嗎?即使您要自己進行調查(而不是使用行政數據,那很可能沒有動機條目),您甚至會如何衡量它?
至於為什麼包含所有內容不是免費的午餐:如果您有一個小樣本,當您的目標是預測時,包含所有可用的協變量可能會很快導致過度擬合。例如,參見這個非常好的討論。