控制回歸模型中的變量與控制研究設計中的變量有什麼區別?
我想在你的研究設計中控制一個變量比在你的回歸模型中控制它更有效地減少錯誤。
有人介意正式解釋這兩個“控制”實例有何不同嗎?它們在減少錯誤和產生更精確的預測方面相對有效嗎?
通過“控制研究設計中的變量”,我假設您的意思是使變量在所有研究單元中保持不變或操縱變量以便為每個研究單元獨立設置該變量的水平。也就是說,控制研究設計中的變量意味著您正在進行真正的實驗。這樣做的好處是它可以幫助推斷因果關係。
理論上,控制回歸模型中的變量也有助於推斷因果關係。但是,只有當您控制與響應有直接因果關係的每個變量時,才會出現這種情況。如果你忽略了這樣一個變量(也許你不知道要包括它),並且它與任何其他變量相關,那麼你的因果推論將是有偏見的和不正確的。在實踐中,我們並不知道所有相關變量,因此統計控制是一項相當冒險的工作,它依賴於您無法檢查的大假設。
但是,您的問題是關於“減少錯誤並產生更精確的預測”,而不是推斷因果關係。這是一個不同的問題。如果您要通過研究設計使給定變量保持不變,則由於該變量導致的所有響應變異性都將被消除。另一方面,如果您只是控制一個變量,您正在估計它的影響,該影響至少會受到抽樣誤差的影響。換句話說,從長遠來看,統計控制在減少樣本中的剩餘方差方面不會那麼好。
但是,如果您對減少錯誤和獲得更精確的預測感興趣,大概您主要關心的是樣本外屬性,而不是樣本內的精度。這就是問題所在。當您通過以某種形式操縱變量(使其保持不變等)來控制變量時,您會創建一種比原始自然觀察更加人為的情況。也就是說,與觀察性研究相比,實驗往往具有更少的外部有效性/普遍性。
如果不清楚,一個保持不變的真實實驗的例子可能是使用基因相同的近交系小鼠評估小鼠模型中的治療。另一方面,控制變量的一個例子可能是用虛擬代碼表示疾病家族史,並將該變量包括在多元回歸模型中(參見,一個“控制其他變量”究竟是如何進行的?,以及如何添加第二個 IV 可以使第一個 IV 顯著嗎?)。