當因果方向不那麼清楚時,我該如何進行?提供了一個例子
我處理觀測數據並為 DAG 定義假設似乎比教科書中提供的示例更複雜。對我來說,跳過 DAG 部分和條件會容易得多,而且發佈時可能沒有問題。然而,我喜歡在方法下明確我的因果假設的想法。
我將給出一個只有兩個預測變量的簡化示例,因此更容易理解。
背景資料
- 粗略的分析表明,來自不同城鎮的人之間的收入存在非常明顯的多重區域差異
- 性別和年齡等變量或節點在城鎮之間存在差異(p < 0.05),表明需要進行調整分析
- 我已經使用各種預測變量組合完成了不同的單級和多級模型,並且區域差異的結果始終成立。
有向無環圖
藍色箭頭對我來說似乎沒問題;然而,城鎮與性別/年齡之間的關係很難界定。我會帶來一些,也許是愚蠢的例子
- 通過為一種性別提供更多工作(例如男性和採礦城鎮),城鎮可能是不同性別分佈的原因
- 性別可能是改變居住地的原因(例如,當地政策歧視女性,她們搬到另一個城鎮)
- 城鎮可能被污染並縮短我們的預期壽命(年齡)
- 年齡可能是改變居住地的原因(例如搬到另一個城鎮去上大學)
如您所見,因果假設可以是單向的(紅色、綠色)或雙向的(橙色),或者將它們顯示為無向的(無箭頭)(黑色)是否更合理?
目標
- 由於城鎮之間的年齡和性別不同,因此會有一個關於調整分析的問題。目標是使用調整後的分析來確認原始數據分析的結果(使它們更加防彈)——城鎮之間的區域差異。
實現我的目標的最佳方式是什麼?
對我來說,發布最保守的結果似乎是合理的,因為結果不會隨著任何調整而改變。
最保守的調整是什麼?
- 調整一切,年齡和性別,即使他們可能部分充當中介(未知方向或雙向箭頭)?
- 我應該用無向箭頭顯示因果圖(那我應該如何命名)?
- 我應該顯示一個帶有雙向箭頭的因果圖(仍然命名為 DAG?)
- 由於打開後門路徑,無向箭頭和雙向箭頭都會使性別和年齡混淆,我說得對嗎?
您將如何解決並在您的文章中呈現這種情況?
拳頭,我認為使用 DAG 很好,因為它需要仔細考慮因果關係,而這通常是建模的核心。
調整一切,年齡和性別,即使他們可能部分充當中介(未知方向或雙向箭頭)?
一種方法是估計每個變量的淨效應,這些變量可能是混雜因素或中介因素,然後進行適當調整。你如何估計淨效應當然是另一個問題。你也可以只做一個假設(並在論文中陳述這個假設)。另一個想法是擬合幾個模型,其中變量被視為中介或混雜因素,並報告所有結果。由於您只有 2 個變量,即性別和年齡,這似乎是一種合理的方法;這意味著要安裝 4 個模型。
我應該用無向箭頭顯示因果圖(那我應該如何命名)?
我不會這樣做,因為它會使圖表模棱兩可。
我應該顯示一個帶有雙向箭頭的因果圖(仍然命名為 DAG?)
如果您要擬合 4 個模型,我也不會這樣做,因為它與建模不一致。此外,如果它具有雙向弧,則不能將其稱為 DAG(根據定義,DAG 是 dorected)
我將包括 4 個 DAG。
由於打開後門路徑,無向箭頭和雙向箭頭都會使性別和年齡混淆,我說得對嗎?
如果您遵循 DAG 理論,則並非如此,因為沒有方向的弧的存在意味著該圖沒有方向*,*因此不是 DAG。