Regression

Y必須是正態分佈的誤解從何而來?

  • April 25, 2018

看似有名的消息來源聲稱因變量必須是正態分佈的:

模型假設:是正態分佈的,誤差是正態分佈的,, 和獨立的, 和是固定的,並且恆定的方差.

賓夕法尼亞州立大學,STAT 504 離散數據分析

其次,線性回歸分析要求所有變量都是多元正態的。

統計解決方案,線性回歸的假設

當響應變量具有正態分佈時,這是合適的

維基百科,廣義線性模型

對於這種誤解如何或為何傳播開來,是否有很好的解釋?它的起源是否已知?

有關的

‘Y 必須是正態分佈的’

必須?


在您提到它是草率的語言的情況下(縮寫為**“Y 中的錯誤必須是正態分佈的”**),但他們並沒有真正(強烈)說響應必須是正態分佈的,或者至少它似乎沒有我知道他們的話是這樣的。

賓夕法尼亞州立大學課程材料

談到*“一個連續變量 $ Y $ “* , 也關於 " $ Y_i $ “如$$ E(Y_i) = \beta_0 + \beta_1 x_i $$我們可以考慮的地方 $ Y_i $ ,正如在評論“條件”中所稱的變形蟲一樣,正態分佈,

$$ Y_i \sim N(\beta_0 + \beta_1x_i,\sigma^2) $$

文章使用 $ Y $ 和 $ Y_i $ 可以互換。在整篇文章中,有人談到“Y 的分佈”,例如:

  • 在解釋 GLM(二元邏輯回歸)的某些變體時,

隨機分量:分佈 $ Y $ 假定為 $ Binomial(n,\pi) $ ,…

  • 在某些定義中

隨機分量——指響應變量的概率分佈( $ Y $ ); 例如正態分佈 $ Y $ 在線性回歸或二項分佈中 $ Y $ 在二元邏輯回歸中。

但是在其他一些時候,他們也提到 $ Y_i $ 代替 $ Y $ :

因變量 $ Y_i $ 不需要正態分佈,但它通常假設分佈來自指數族(例如二項式、泊松、多項式、正態分佈…)

統計解決方案網頁

是一個極其簡短、簡化、程式化的描述。我不確定你應該認真對待這件事。例如,它談到

..要求所有變量都是多元正態的…

所以這不僅僅是響應變量,

而且“多變量”描述符也很模糊。我不知道如何解釋。

維基百科文章

在括號中解釋了一個額外的上下文:

普通線性回歸將給定未知量(響應變量、隨機變量)的期望值預測為一組觀察值(預測變量)的線性組合。這意味著預測變量的恆定變化導致響應變量的恆定變化(即線性響應模型)。當響應變量具有正態分佈時(直觀地說,當響應變量可以在沒有固定“零值”的任一方向上基本上無限地變化時,或更一般地對於僅變化相對較小量的任何量,例如人類高度)。

這個“沒有固定的零值”似乎指向線性組合的情況 $ y+\epsilon $ 什麼時候 $ \epsilon \sim N(0,\sigma) $ 具有無限域(從負無窮到正無窮),而許多變量通常具有一些有限的截止值(例如不允許負值的計數)。

特定行已於 2012 年3 月 8 日添加,但請注意,維基百科文章的第一行仍為*“普通線性回歸的靈活概括,允許響應變量具有除正態分佈之外的誤差分佈模型*” ,而不是這麼多(不是到處)錯了。


結論

所以,基於這三個例子(這確實會產生誤解,或者至少會被誤解),我不會說*“這種誤解已經蔓延”*。或者至少在我看來,這三個示例的意圖並不是要爭論 Y 必須是正態分佈的(儘管我確實記得這個問題之前在 stackexchange 上出現過,正態分佈錯誤和正態分佈響應變量之間的交換很容易製作)。

因此,在我看來,“Y 必須是正態分佈”的假設不像是普遍的相信/誤解(就像在像紅鯡魚一樣傳播的東西中),而更像是一個常見的錯誤(不是傳播而是每次都是獨立製造的) )。


附加評論

該網站上的錯誤示例在以下問題中

如果殘差是正態分佈的,但 y 不是?

我認為這是一個初學者問題。它沒有出現在賓夕法尼亞州立大學課程材料、維基百科網站等材料中,最近在評論中提到了“用 R 擴展線性回歸”一書。

這些作品的作者確實正確理解了這些材料。事實上,他們使用諸如“Y 必須是正態分佈”之類的短語,但根據上下文和使用的公式,您可以看到它們都表示“Y,以 X 為條件,必須是正態分佈”,而不是“邊緣 Y 必須正態分佈”。他們自己並沒有誤解這個想法,至少這個想法在統計學家和編寫書籍和其他課程材料的人中並不普遍。但誤讀他們的模棱兩可的話,確實可能會造成誤解。

引用自:https://stats.stackexchange.com/questions/342759

comments powered by Disqus