Survival

調整傾向得分中的所有內容?

  • September 13, 2014

我有一個方法問題,因此沒有附加示例數據集。

我打算做一個傾向評分調整的 Cox 回歸,旨在檢查某種藥物是否會降低結果的風險。該研究是觀察性的,包括 10,000 人。

數據集包​​含 60 個變量。我判斷其中 25 個可能會影響治療分配。我永遠不會在 Cox 回歸中調整所有 25 個變量,但我聽說您可以在傾向得分中包含這麼多變量作為預測變量,然後在 Cox 回歸中只包含傾向得分子類和治療變量。

(在道具分數調整後不相等的協變量當然必須包含在 Cox 回歸中)。

底線,在道具分數中包含這麼多預測變量真的很聰明嗎?


@Dimitriy V. Masterov 感謝您分享這些重要事實。與考慮其他回歸框架的書籍和文章相反,我沒有看到任何(閱讀 Rosenbaums 的書)關於傾向得分分析中模型選擇的指南。雖然標準教科書/評論文章似乎總是建議嚴格選擇變量並保持較低的預測變量數量,但我在道具分數分析中沒有看到太多這樣的討論。你寫:(1)“理論洞察力、制度知識和良好的研究應該指導選擇Xs”. 我同意,但在某些情況下,我們手頭有一個變量,但並不真正知道(但有可能)該變量是否影響治療分配或結果。例如:我是否應該在旨在調整他汀類藥物治療的道具評分中包括腎功能(以濾過率衡量)。他汀類藥物治療與腎功能無關,我已經包含了一系列會影響他汀類藥物治療的變量。但仍然很想將腎功能包括在內;它可能會調整得更多。現在有人會說它應該被包括在內,因為它會影響結果,但據我們所知,我可以再舉一個不影響治療或結果的變量的例子(例如二元變量城市/農村生活)。但我想包括它,只要它不 t 影響道具得分精度。(2)*“包括受治療影響的 X,無論是事後還是事前預期治療,都會使假設無效”。*我不確定你在這裡的意思。但如果我研究他汀類藥物對心血管結局的影響,我會將血脂的各種測量值納入傾向評分。血脂受治療影響。我想我誤解了這個說法。

@statsRus 感謝您分享事實,尤其是您所說的“關於選擇輸入的說明”。我想我的推理方式和你差不多。

不幸的是,道具得分方法討論了各種調整策略而不是模型選擇策略。也許模型擬合併不重要。如果是這種情況,我會針對可能對結果和治療分配產生最輕微影響的每個可用變量進行調整。我不是靜態學家,但如果模型擬合不重要,那麼我想調整所有可能影響治療分配和結果的變量。這在許多情況下意味著包括將受治療影響的變量。

此外,有些人建議隨後的 Cox 回歸應該只包括治療變量和道具分數子類。而其他人則建議 cox 調整應該包括除了您要調整的所有其他變量之外的道具分數。

我個人至少 5 年來一直在問這個問題,因為對我來說,使用觀察數據上的傾向得分匹配來估計因果效應是一個“大”的實際問題。這是一個絕妙的問題,並且在統計學與計算機科學界之間存在著微妙的分歧。

根據我的經驗,統計學家傾向於將可觀察到的輸入“扔進廚房水槽”來估計傾向得分,而計算機科學家傾向於支持輸入的理論原因(儘管統計學家偶爾會提到理論在證明選擇的合理性方面的重要性)傾向得分模型的輸入)。我認為,差異源於計算機科學家(尤其是 Judea Pearl)傾向於根據有向無環圖來考慮因果關係。當通過有向無環圖查看因果關係時,很容易看出您可以使用所謂的“對撞機”變量作為條件,該變量可能會“解除阻塞”後門路徑,實際上會在您對因果效應的估計中產生偏差。

我的外賣?如果您對影響治療選擇的因素有紮實的理論,請在傾向評分估計中使用它。然後進行敏感性分析以確定您的估計對未觀察到的混雜變量的敏感性。如果你幾乎沒有理論可以指導你,那就扔進“廚房水槽”,然後進行敏感性分析。

關於為傾向評分模型選擇輸入的註釋(這可能很明顯,但對於不熟悉從觀察數據估計因果效應的其他人來說值得注意):不要控制治療後變量。也就是說,您希望在治療前測量傾向評分模型中的輸入,並在治療後測量您的結果。在觀察性數據中,這實際上意味著您需要三波數據,包括一組詳細的協變量基線、在第二波中測量的治療以及在最後一波中測量的結果。

引用自:https://stats.stackexchange.com/questions/115355

comments powered by Disqus