Machine-Learning

因果樹如何針對異質治療效果進行優化?

  • October 4, 2018

關於因果森林/廣義隨機森林中的因果樹如何優化治療效果的異質性,有一個非常具體的問題。

這個問題來自 PNAS 的Athey & Imbens (2016) 論文“Recursive partitioning for heterogenous causal effects” 另一篇論文是 Wager & Athey (2018), JASA中的“使用隨機森林對異質處理效果的估計和推斷” (此處為 arxiv.org 鏈接)。我知道我的問題的答案在那些論文中,但不幸的是,我無法解析一些方程來提取它。我知道當我能用語言表達算法時,我就能很好地理解它,所以我在這裡不能這樣做一直讓我很惱火。

在我的理解中,一棵誠實的因果樹通常由以下內容構成:

給定具有結果的數據集 $ Y $ , 協變量 $ X $ , 和一個隨機條件 $ W $ 控制值為 0,處理值為 1:

  1. 將數據拆分為子樣本 $ I $ 和子樣本 $ J $
  2. 在子樣本上訓練決策樹 $ I $ 預測 $ Y $ 從 $ X $ , 要求每個終端節點至少有 $ k $ 子樣本中每個條件的觀察結果 $ J $
  3. 應用在子樣本上構建的決策樹 $ I $ 二次抽樣 $ J $
  4. 在每個終端節點,獲得預測的平均值 $ W $ = 來自子樣本的 1 個案例 $ J $ 並減去預測的平均值 $ W $ = 來自子樣本的 0 個案例 $ J $ ; 由此產生的差異是估計的治療效果

任何未來的樣本外案例(例如部署模型後使用的案例)都將被丟棄到樹中,並為它們所在的節點分配預測的治療效果。

這被稱為“誠實”,因為實際的訓練和估計是在完全不同的數據上完成的。Athey 和同事有一個很好的漸近理論,表明您可以推導出這些治療效果的方差估計,這是使它們“誠實”背後的動機的一部分。

然後通過使用 bagging 或 bootstrapping 將其應用於因果隨機森林。


現在,Athey & Imbens (2016) 指出,該程序使用修改後的均方誤差標准進行拆分,該標準獎勵“在處理效果中發現強烈異質性的分區,並懲罰在葉子估計中產生差異的分區”(第 7357 頁) .

我的問題是:你能用文字解釋一下這是怎麼回事嗎?

在此引文之前的前兩節中,修改傳統 CART 以獲得治療效果修改誠實方法,作者使用 Rubin 因果模型/潛在結果框架來推導治療效果的估計。

他們指出,我們並沒有試圖預測 $ Y $ ——就像在大多數機器學習案例中一樣——但是期望值之間的差異 $ Y $ 在兩種情況下,給定一些協變量 $ X $ . 根據潛在結果框架,這是“不可行的”:我們只能在兩種條件之一中衡量某人的結果。

在一系列方程中,它們展示了我們如何使用修改後的分割標準來預測治療效果。他們說:“……治療效果類似物是不可行的,但我們可以使用它的無偏估計,這會導致 $ -\hat{MSE}{\tau}(S^{tr, cv}, S^{tr, tr}, \Pi) $ ”(第 7357 頁)。作為具有社會科學和應用統計學背景的人,我無法將他們設置的內容與我們如何從數據中估算出來之間的點點滴滴聯繫起來。有人如何計算 $ -\hat{MSE}{\tau}(S^{tr, cv}, S^{tr, tr}, \Pi) $ 從觀察到的數據?它的方程式是什麼?

任何有助於解釋該標準如何使治療效果的差異最大化(即因果效應的異質性)對我對如何構建可能導致我的困惑的因果樹的描述進行任何更正將不勝感激。現在,我看不出這種方法與其他剛剛訓練的算法有何不同 $ Y $ 並估計 CATE $ E(Y | T = 1, X) - E(Y | T = 0, X) $ .

您的理解是正確的,本文的核心概念是抽樣拆分對於實證工作至關重要,它使我們能夠對治療效果進行無偏估計。

解決您的主要問題:選擇的標準是 $ \hat{EMSE}\tau $ 和 $ \hat{EMSE}\mu $ . 兩者都懲罰差異並鼓勵異質性。首先,我將重點關注治療效果的估計預期 MSE $ \hat{EMSE}\tau $ . 對於給定的樹/分區 $ \Pi $ 使用訓練樣本時 $ \mathcal{S}^{tr} $ 和大小的估計樣本 $ N^{est} $ ,否則“不可行的標準”的估計量 $ -\hat{EMSE}\tau ( \mathcal{S}^{tr},N^{est},\Pi) $ 根據定義,是葉間估計處理效果的方差(該術語表示為: $ \frac{1}{N^{tr}} \Sigma_{i \in \mathcal{S}^{tr}} \hat{\tau}^2 (X_i; \mathcal{S}^{tr}, \Pi) $ ) 減去這些處理效果的不確定性(方差估計項 $ S^2_{S^{tr}{treat}} $ 和 $ S^2{S^{tr}{control}} $ 也與樣本量成反比 $ N^{tr} $ 和 $ N^{est} $ )。因此,擬合優度不是“普通”MSE,而是方差懲罰的 MSE。我們估計的異質性越強,我們的估計越好 $ EMSE\tau $ 同樣,我們估計的方差越高,我們的估計越差 $ EMSE_\tau $ . 還要注意,估計的平均因果效應 $ \hat{\tau}(x; \mathcal{S}, \Pi) $ 等於 $ \hat{\mu}(1,x; \mathcal{S}, \Pi ) - \hat{\mu}(0,x; \mathcal{S}, \Pi ) $ 即我們將在估計的過程中間接獎勵異質性 $ \hat{\mu} $ 也。

更一般地說,樣本分割的基本思想是,我們通過使用與用於構建樹的樣本不同的樣本(即現有樣本空間的分區)來獲得對樹的估計 $ \mathcal{S} $ ),因此我們可以主要關注方差而不是偏差-方差權衡。這是Honest Splitting部分的要點,我們可以看到選擇標準將懲罰小葉子大小,因為它們將與高方差相關聯 $ S^2 $ 的估計效果。

總之,使 RF 保持一致的任務受到兩個方面的攻擊:

  1. 樣本分為訓練集和評估集。
  2. 分裂的標準是樹葉“大”。

正如本文所述,這將導致治療效果的 MSE 受到打擊,但這將增加其置信區間的名義覆蓋率。我認為 Athey 教授在 2016 年關於使用基於森林的算法求解異構估計方程的演講(21:25 到 22:02)中的引述很好地抓住了這項工作的精髓:“ ……人們說過,如果你要對葉子內的處理效果進行假設檢驗,您的目標函數不應該以某種方式預測您想要構建置信區間。(…)所以我們基本上,而不是像這樣做最近鄰“(使用自適應 $ k $ -NN 估計器),“我們將擁有基於樹的鄰域,這些鄰域基本上根據我們在建樹樣本中看到的異質性來分割協變量空間。然後在估計樣本中,我們將返回並估計治療效果在那個分區裡。

引用自:https://stats.stackexchange.com/questions/370033

comments powered by Disqus