隨機分配:何必呢?
隨機分配很有價值,因為它確保了治療與潛在結果的獨立性。這就是它如何導致對平均治療效果的無偏估計。但其他分配方案也可以系統地確保治療與潛在結果的獨立性。那麼為什麼我們需要隨機分配呢?換句話說,隨機分配與非隨機分配方案相比有什麼優勢,非隨機分配方案也會導致無偏推理?
讓是治療分配的向量,其中每個元素為 0(未分配給治療的單位)或 1(分配給治療的單位)。在 JASA 的一篇文章中,Angrist、Imbens 和 Rubin (1996, 446-47)說治療分配是隨機的,如果對所有人和這樣, 在哪裡是所有元素都等於 1 的列向量。
換句話說,聲明是指派如果任何賦值向量包含分配給治療的可能性與任何其他載體一樣可能,包括治療任務。
但是,為了確保潛在結果與治療分配的獨立性,只需確保研究中的每個單元具有相同的治療分配概率就足夠了。即使大多數治療分配向量被選擇的概率*為零,這種情況也很容易發生。*也就是說,即使在非隨機分配下也可能發生。
這是一個例子。我們想要運行一個包含四個單元的實驗,其中恰好兩個單元被處理。有六個可能的分配向量:
- 1100
- 1010
- 1001
- 0110
- 0101
- 0011
其中每個數字中的第一個數字表示是否處理了第一個單元,第二個數字表示是否處理了第二個單元,依此類推。
假設我們進行了一個實驗,其中我們排除了分配向量 3 和 4 的可能性,但其中每個其他向量都有相同 (25%) 的機會被選中。該方案不是 AIR 意義上的隨機分配。但在預期中,它會導致對平均治療效果的無偏估計。這絕非偶然。任何給予受試者相同概率分配到治療的分配方案都將允許對 ATE 進行無偏估計。
那麼:為什麼我們需要 AIR 意義上的隨機分配?我的論點植根於隨機推理;如果人們考慮的是基於模型的推理,那麼 AIR 的定義是否看起來更合理?
這是對gung的評論的跟進。總體平均治療效果不是重點。
假設你有受試者年齡介於和, 和新的糖尿病患者超過. 您想將一半分配給治療。為什麼不擲硬幣,正面治療所有年輕患者,反面治療所有老年患者?每個人都會有一個有機會被選中進行治療,因此這不會使治療的平均結果產生偏差,但會丟棄大量信息。如果青少年糖尿病或年輕患者的反應比患有 II 型或妊娠糖尿病的老年患者好或差得多,這不足為奇。觀察到的治療效果可能是無偏的,但例如,它的標準偏差會比通過隨機分配產生的要大得多,而且儘管樣本很大,您也不能說太多。如果你使用隨機分配,那麼很有可能大約每個年齡組的病例都會接受治療,因此您可以比較每個年齡組內的治療與不治療。
您可能比使用隨機分配做得更好。如果您注意到一個您認為可能會影響對治療的反應的因素,您可能希望確保具有該屬性的受試者比隨機分配的受試者分配得更均勻。隨機分配讓您可以同時處理所有因素,這樣您就可以分析許多可能的模式。