Causality

統計和因果推理?

  • August 31, 2010

在他 1984 年的論文“統計和因果推理”中,保羅·霍蘭德提出了統計學中最基本的問題之一:

統計模型可以說明什麼因果關係?

這導致了他的座右銘:

沒有操縱就沒有因果關係

這強調了對考慮因果關係的實驗進行限制的重要性。Andrew Gelman 提出了類似的觀點

“要弄清楚當你改變某事時會發生什麼,就必須改變它。”……有些東西你從擾亂系統中學到的東西,你永遠不會從任何數量的被動觀察中發現。

這篇文章總結了他的想法。

從統計模型進行因果推斷時應該考慮哪些因素?

這是一個廣泛的問題,但鑑於 Box、Hunter 和 Hunter 的引述是真實的,我認為歸根結底是

  1. 實驗設計的質量:
  • 隨機化,樣本量,混雜因素的控制,…
  1. 設計實施的質量:
  • 遵守協議、測量錯誤、數據處理……
  1. 模型的質量準確反映設計:
  • 塊結構被準確地表示,適當的自由度與效果相關,估計器是無偏的,……

冒著陳述顯而易見的風險,我將嘗試抓住每個要點:

  1. 是統計的一個大子領域,但在它的最基本形式中,我認為歸結為這樣一個事實,即在進行因果推理時,我們理想地從在相同環境中監控的相同單元開始,而不是分配給治療。分配後組之間的任何系統差異在邏輯上都可歸因於治療(我們可以推斷原因)。但是,世界並沒有那麼美好,治療前的單位不同,實驗期間的環境也沒有完全控制。所以我們“控制我們能做的,隨機化我們不能做的”,這有助於確保不會因為我們控製或隨機化的混雜因素而出現系統性偏差。一個問題是,實驗往往是困難的(甚至是不可能的)和昂貴的,並且已經開發了多種設計以在考慮到成本的情況下在盡可能仔細控制的環境中有效地提取盡可能多的信息。其中一些是相當嚴格的(例如醫學中的雙盲、隨機、安慰劑對照試驗),而另一些則不那麼嚴格(例如各種形式的“準實驗”)。
  2. 這也是一個大問題,統計學家通常不會考慮……儘管我們應該考慮。在應用統計工作中,我可以回憶起在數據中發現的“影響”是數據收集或處理不一致的虛假結果的事件。我還想知道由於這些問題,有關感興趣的真實因果影響的信息多久丟失一次(我相信應用科學專業的學生通常幾乎沒有接受過關於數據損壞方式的培訓——但我在這裡偏離了話題…)
  3. 是另一大技術課題,也是客觀因果推理的又一必要步驟。這在一定程度上得到了解決,因為設計人群一起開發設計和模型(因為從模型推斷是目標,估計器的屬性驅動設計)。但這只能讓我們走這麼遠,因為在“現實世界”中,我們最終會分析來自非教科書設計的實驗數據,然後我們必須認真思考諸如適當的控制以及它們應該如何進入模型以及相關程度的問題。自由應該是以及是否滿足假設,如果不滿足如何調整違規行為以及估計器對任何剩餘違規行為的穩健性和…

無論如何,希望上面的一些內容有助於思考從模型中進行因果推理的考慮因素。我忘了什麼大事嗎?

引用自:https://stats.stackexchange.com/questions/2245

comments powered by Disqus

相關問答