Regression

我們真的需要包括“所有相關的預測因素”嗎?

  • March 28, 2016

使用回歸模型進行推理的一個基本假設是“所有相關的預測變量”都已包含在預測方程中。基本原理是未能包括重要的現實世界因素會導致有偏差的係數,從而導致不准確的推論(即,遺漏變量偏差)。

但在研究實踐中,我從未見過任何人包括任何類似“所有相關預測因子”的東西。許多現像有無數重要的原因,如果不是不可能,也很難將它們全部包括在內。一個現成的例子是將抑鬱症建模為結果:沒有人建立任何接近包含“所有相關變量”的模型的東西:例如,父母的歷史、性格特徵、社會支持、收入、他們的互動等,等等…

此外,除非樣本量非常大,否則擬合如此復雜的模型會導致估計非常不穩定。

我的問題很簡單:“包括所有相關預測變量”的假設/建議只是我們“說”但從未真正表示過的東西嗎?如果不是,那我們為什麼要把它作為實際的建模建議呢?

這是否意味著大多數係數可能具有誤導性?(例如,僅使用幾個預測變量的人格因素和抑鬱症研究)。換句話說,這對我們的科學結論有多大的問題?

你是對的——我們很少會說“所有相關的預測因素”是現實的。在實踐中,我們可以滿足於包含解釋變量主要來源的預測變量。. 在對觀察性研究中的風險因素或治療進行推斷的特殊情況下,這很少足夠好。為此,混雜因素的調整需要非常積極,包括可能與結果相關、可能與治療選擇或您試圖宣傳的風險因素相關的變量。

有趣的是,對於正態線性模型,省略的協變量,特別是如果與包含的協變量正交,可以被認為只是擴大了誤差項。在非線性模型(logistic、Cox 和許多其他模型)中,變量的省略可能會影響模型中包含的所有變量的影響(例如,由於優勢比的不可折疊性)。

引用自:https://stats.stackexchange.com/questions/204174

comments powered by Disqus