過度匹配偏差和混雜變量
據我了解,匹配是在觀察性研究中識別因果關係的一種方法。通過匹配“相似”的觀察並比較接受或未接受治療的觀察,您可以將其視為一種準實驗。
什麼是超配?它引入了什麼樣的偏見?我主要從經濟學的角度看到匹配,但最近看到一些關於流行病學的論文表明“過度匹配”會導致偏見。我發現很難理解論文的術語,如果有人能幫助解釋一些主要概念,我將不勝感激。以下是引用該想法的文章:
來自Rothman、Greenland 和 Lash 的現代流行病學第 3 版:
至少存在三種形式的過度匹配。第一種是指損害統計效率的匹配,例如對與暴露但與疾病無關的變量進行病例對照匹配。第二種是指損害有效性的匹配,例如在暴露和疾病之間的中間物上進行匹配。第三是指損害成本效益的匹配。
AndyW 的回答是關於第二種形式的過度匹配。簡而言之,它們都是這樣工作的:
1:為了成為混雜因素,標準之一是協變量與結果和暴露相關。如果它只與其中一個相關聯,那它就不是一個混雜因素,你所做的只是擴大了你的置信區間。
為了進一步探索這種類型的過度匹配,請考慮對二元暴露進行匹配的病例對照研究,其中一個對照與一個或多個混雜因素的每個病例匹配。除非可以組合某些層,否則分析中的每個層將由一個案例和一個控制組成。如果案例及其匹配的控制要么都暴露或都未暴露,則 2 x 2 表的一個邊距將為 0……這樣一對受試者不會為分析提供任何信息。如果對暴露的相關性進行分層,則會增加此類表格出現的機會,因此往往會增加分層分析中丟失的信息。
2:AndyW 對此進行了部分討論。匹配中間因素會使您的估計產生偏差,匹配受暴露和結果影響的事物也會產生偏差。這本質上是對對撞機的控制,任何這樣做的技術都會使您的估計產生偏差。
然而,如果潛在匹配因子受暴露影響,而該因子又影響疾病(即,是一個中間變量),或者同時受暴露和疾病影響,那麼對因子的匹配將使粗略效應和調整後效應都產生偏差估計。在這些情況下,病例對照匹配只不過是一種無法彌補的選擇偏差。
3:這更像是一個研究設計問題。由於原因 1 和 2 對您不需要匹配的變量進行廣泛匹配可能會導致您拒絕容易獲得的控制(朋友、家人、附近的社交網絡等),而支持更難獲得可以在不必要的協變量集。這需要花錢——本可以花在更多主題、更好的暴露或疾病確定等方面的錢,但在偏見或精確度方面沒有明顯的收益,而且確實對兩者都造成了威脅。