“思考，快與慢”中的均值回歸

January 10, 2016

在Thinking, Fast and Slow中，Daniel Kahneman 提出了以下假設性問題：

(P. 186) Julie 目前是一所州立大學的大四學生。她四歲時就能流利地閱讀。她的平均績點 (GPA) 是多少？

他的目的是說明在對某些統計數據進行預測時，我們經常無法解釋均值回歸。在隨後的討論中，他建議：

(P. 190) 回想一下，兩個衡量標準之間的相關性——在本案例中是閱讀年齡和 GPA——等於其決定因素之間共享因素的比例。你對這個比例的最佳猜測是什麼？我最樂觀的猜測是大約 30%。假設這個估計值，我們就擁有了產生無偏預測所需的一切。以下是如何通過四個簡單步驟到達那裡的說明：

從平均 GPA 的估計開始。

確定與您對證據的印象相匹配的 GPA。

估計閱讀早熟與 GPA 之間的相關性。

如果相關性為 0.30，則將 30% 的距離從平均值移動到匹配的 GPA。

我對他的建議的解釋如下：

使用“她四歲時能流利閱讀”來建立朱莉閱讀早熟的標準分數。

確定具有相應標準分數的 GPA。（如果GPA 和閱讀早熟之間的相關性是完美的，那麼預測的合理 GPA 將對應於這個標準分數。）

估計 GPA 變化的百分比可以通過閱讀早熟的變化來解釋。（我假設他在這種情況下指的是具有“相關性”的決定係數？）

因為朱莉閱讀早熟的標準分數只有 30% 可以用同樣可以解釋她的 GPA 標準分數的因素來解釋，所以我們只能有理由預測朱莉的 GPA 標準分數將是它的 30%在完全相關的情況下。

我對卡尼曼程序的解釋是否正確？如果是這樣，他的程序是否有更正式的數學證明，尤其是第 4 步？一般來說，兩個變量之間的相關性與其標準分數的變化/差異之間的關係是什麼？

我對卡尼曼程序的解釋是否正確？

這有點難說，因為卡尼曼的第 2 步並沒有非常精確地表述：“確定與你對證據的印象相匹配的 GPA”——這究竟是什麼意思？如果某人的印象得到了很好的校準，那麼就不需要向平均值進行校正。如果某人的印象非常糟糕，那麼他們寧願糾正得更厲害。

所以我同意@AndyW 的觀點，即 Kahneman 的建議只是一個經驗法則。

也就是說，如果您按照您在解釋步驟##1–2 中的解釋來解釋卡尼曼的第 2 步：即您以相同的方式獲得 GPA- 得分為- 將早熟閱讀為“符合您對證據的印象”的分數，那麼您的程序在數學上完全正確，而不是經驗法則。

[…] 他的程序是否有更正式的數學證明，尤其是第 4 步？一般來說，兩個變量之間的相關性與其標準分數的變化/差異之間的關係是什麼？

如果你預測從並且兩者都轉換為-分數，即均值和單位方差為零，並且具有相關性相互之間，那麼可以很容易地證明回歸方程將是

即回歸係數將等於相關係數。從這裡可以立即得出，如果您知道（例如你知道閱讀早熟的標準分數），那麼預測值（GPA的標準分數）將是次。

這正是所謂的“回歸均值”。您可以在 Wikipedia 上的討論中看到一些公式和推導。

引用自：https://stats.stackexchange.com/questions/190032

comments powered by Disqus

“思考，快與慢”中的均值回歸

相關問答

無法在模擬數據集中獲得正確的邏輯回歸係數

什麼是隨機變量，什麼不是回歸模型

“除以 4 規則”是否給出上限邊際效應？

在邏輯回歸中縮放解釋變量時結果的不變性，有證據嗎？

發現的高維、相關數據和主要特徵/協變量；多重假設檢驗？

當僅對預測變量進行縮放時，縮放回歸係數的解釋是什麼？