朱迪亞珍珠書中的因果關係問題
我開始閱讀Judea Pearl 等人的統計中的因果推理,A Primer。人。我擁有數學碩士學位,但我從未上過統計學課程。我對一個早期的學習問題有點困惑,沒有人可以問這個問題,所以我希望這個網站上的人會為我批評我的答案。(這不是作業問題。我是退休人員,只是保持頭腦活躍。)請注意,問題中沒有給出具體數據。
a) 腎結石有兩種治療方法,治療 A 和治療 B。醫生更有可能對大(因此更嚴重)結石開治療 A,更有可能對小結石開治療 B。在確定哪種治療更有效時,不知道結石大小的患者是否應該檢查一般人群數據或特定大小的數據?
b) 一個小鎮上有兩個醫生。每個人在他的職業生涯中都進行了 100 次手術,分為兩種類型:一種非常簡單的手術,一種非常困難的手術。第一位醫生進行簡單手術的頻率遠高於困難手術,第二位醫生進行困難手術的頻率高於簡單手術。您需要手術,但您不知道您的情況是容易還是困難。是應該對所有病例諮詢每位醫生的成功率,還是應該分別諮詢易、難病例的成功率,以最大限度地提高手術成功的機會?
至於 a) 部分,可以合理地假設治療 A 與治療 B 相比存在缺陷,或者為什麼不一直開處方?所以,在我看來,如果不知道腎結石的大小,我就無法做出明智的決定。我希望數據顯示治療 A 對大結石更有效,至少對小結石同樣有效,但如果我的結石很小,我不想承擔治療 A 的假定風險。假設小結石幾乎總能成功治療,我希望治療 B 在一般人群中顯示出更高的成功率,但如果我有大結石,我不想採用治療 B。
在我看來,除非我知道我的石頭的大小,否則這些數據毫無用處。這可能是問題的答案嗎?整件事似乎毫無意義,因為我不能去藥房在櫃檯購買任何一種治療方法。我的醫生會開處方,如果他不能(或不會)告訴我結石的大小,我會換醫生。
至於 b) 部分,很明顯您想單獨查看程序的費率,但僅靠費率是不夠的。假設第一個醫生只做了一次困難的手術,結果很成功,第二個醫生做了 37 次,成功了 35 次。我非常傾向於和第二位醫生一起去,但我想知道 37 名中的 35 名與國家標準相比如何,以及這兩次失敗是否發生在他職業生涯的早期(當時他仍在學習)或更近期(在他開始大量飲酒之後)。
這種討論是問題所要求的,還是期望得到更簡單的答案?如果我有幸讓老師閱讀此內容,您會如何評價我的答案?
首先讓我說,如果我給你的問題評分,我會給你一個很好的分數。這些是本書的介紹性問題,所以你仍然沒有思考問題的所有工具,但你已經表明你知道你需要考慮因果信息來回答它。
現在至於答案,請注意問題詢問您是否要查看聚合數據或分離數據。事實證明,在這兩種情況下,您都希望查看隔離數據。
在問題 A 中,結石的大小會影響治療的選擇和健康狀況。因此,您需要隔離數據來消除這種偏差並確定哪種治療更有效,無論是有條件的還是無條件的。要知道哪種治療無條件更好,您需要分離數據以獲得由結石大小概率加權的平均因果效應, 在哪裡是健康狀況,治療選擇和石頭大小。如果您想知道哪種處理有條件地更好,那麼很明顯您還需要隔離表。
如果在不知道結石大小的情況下為自己選擇一種治療方法很奇怪,也許更容易理解必須為整個人群選擇一種治療方法的類似問題(比如出於技術/預算原因,您無法選擇兩個都)。在這種情況下,您想知道哪個對整個人口的平均治療效果最大。
問題 B 是一個類似的問題,難度是一個混雜因素,所以你需要隔離表來知道哪個醫生更好,有條件的和無條件的。您關於樣本量的觀點是完全正確的,在現實生活中您應該始終考慮樣本不確定性——但請注意,它不會改變您仍然需要分離數據信息的事實。
關於你最後的評論,
如果這兩次失敗發生在他職業生涯的早期(他還在學習的時候)或者最近(他開始大量飲酒之後)。
它實際上觸及了因果推理中的一個深層次問題,即不變性假設。以剛才醫生開始大量飲酒的情況為例。在這種情況下,該事件之前和之後的數據並非來自相同的因果模型 — 因此,在這種情況下,您實際上需要更多信息和更多因果假設來進行推斷。