Correlation
相關性和因果關係
從標題為相關的維基百科頁面並不意味著因果關係,
對於任意兩個相關事件 A 和 B,不同的可能關係包括:
- A導致B(直接因果關係);
- B導致A(反向因果關係);
- A和B是共同原因的結果,但互不因果;
- A 和 B 都導致 C,這是(顯式或隱式)條件。
- A引起B,B引起A(雙向或循環因果);
- A導致C導致B(間接因果關係);
- A和B之間沒有聯繫;相關性是巧合。
第四點是什麼意思。A 和 B 都導致 C,這是(顯式或隱式)條件。如果 A 和 B 導致 C,為什麼 A 和 B 必須相關。
“調節”是概率論中的一個詞:https ://en.wikipedia.org/wiki/Conditional_probability
以 C 為條件意味著我們只關注 C 為真的情況。“隱式”意味著我們可能沒有明確地做出這個限制,有時甚至沒有意識到這樣做。
這意味著,當 A 和 B 都導致 C 時,在 C 為真的情況下觀察 A 和 B 之間的相關性,並不意味著 A 和 B 之間存在真正的關係。它只是以 C 為條件(可能是不情願地)建立人為的相關性。
讓我們舉個例子。
在一個國家,恰好存在兩種疾病,完全獨立。調用 A :“人有第一種疾病”,B :“人有第二種疾病”。認為,.
現在,任何患有其中一種疾病的人都會去看醫生,然後才去看醫生。呼叫 C :“人去看醫生”。我們有.
現在讓我們計算一些概率:
顯然,當以 C 為條件時,和離獨立還很遠。實際上,以 C 為條件,似乎“導致”.
如果您使用他們的醫生記錄的人員列表作為分析的數據源,那麼疾病之間似乎存在很強的相關性和. 您可能沒有意識到您的數據源實際上是一個條件。這也稱為“選擇偏差”。