“思考,快與慢”中的均值回歸
在Thinking, Fast and Slow中,Daniel Kahneman 提出了以下假設性問題:
(P. 186) Julie 目前是一所州立大學的大四學生。她四歲時就能流利地閱讀。她的平均績點 (GPA) 是多少?
他的目的是說明在對某些統計數據進行預測時,我們經常無法解釋均值回歸。在隨後的討論中,他建議:
(P. 190) 回想一下,兩個衡量標準之間的相關性——在本案例中是閱讀年齡和 GPA——等於其決定因素之間共享因素的比例。你對這個比例的最佳猜測是什麼?我最樂觀的猜測是大約 30%。假設這個估計值,我們就擁有了產生無偏預測所需的一切。以下是如何通過四個簡單步驟到達那裡的說明:
- 從平均 GPA 的估計開始。
- 確定與您對證據的印象相匹配的 GPA。
- 估計閱讀早熟與 GPA 之間的相關性。
- 如果相關性為 0.30,則將 30% 的距離從平均值移動到匹配的 GPA。
我對他的建議的解釋如下:
- 使用“她四歲時能流利閱讀”來建立朱莉閱讀早熟的標準分數。
- 確定具有相應標準分數的 GPA。(如果GPA 和閱讀早熟之間的相關性是完美的,那麼預測的合理 GPA 將對應於這個標準分數。)
- 估計 GPA 變化的百分比可以通過閱讀早熟的變化來解釋。(我假設他在這種情況下指的是具有“相關性”的決定係數?)
- 因為朱莉閱讀早熟的標準分數只有 30% 可以用同樣可以解釋她的 GPA 標準分數的因素來解釋,所以我們只能有理由預測朱莉的 GPA 標準分數將是它的 30%在完全相關的情況下。
我對卡尼曼程序的解釋是否正確?如果是這樣,他的程序是否有更正式的數學證明,尤其是第 4 步?一般來說,兩個變量之間的相關性與其標準分數的變化/差異之間的關係是什麼?
我對卡尼曼程序的解釋是否正確?
這有點難說,因為卡尼曼的第 2 步並沒有非常精確地表述:“確定與你對證據的印象相匹配的 GPA”——這究竟是什麼意思?如果某人的印象得到了很好的校準,那麼就不需要向平均值進行校正。如果某人的印象非常糟糕,那麼他們寧願糾正得更厲害。
所以我同意@AndyW 的觀點,即 Kahneman 的建議只是一個經驗法則。
也就是說,如果您按照您在解釋步驟##1–2 中的解釋來解釋卡尼曼的第 2 步:即您以相同的方式獲得 GPA- 得分為- 將早熟閱讀為“符合您對證據的印象”的分數,那麼您的程序在數學上完全正確,而不是經驗法則。
[…] 他的程序是否有更正式的數學證明,尤其是第 4 步?一般來說,兩個變量之間的相關性與其標準分數的變化/差異之間的關係是什麼?
如果你預測從並且兩者都轉換為-分數,即均值和單位方差為零,並且具有相關性相互之間,那麼可以很容易地證明回歸方程將是
即回歸係數將等於相關係數。 從這裡可以立即得出,如果您知道(例如你知道閱讀早熟的標準分數),那麼預測值(GPA的標準分數)將是次。
這正是所謂的“回歸均值”。您可以在 Wikipedia 上的討論中看到一些公式和推導。