Regression

為什麼線性回歸對殘差有假設,但廣義線性模型對響應有假設?

  • February 12, 2017

為什麼線性回歸和廣義模型的假設不一致?

  • 在線性回歸中,我們假設殘差來自高斯
  • 在其他回歸(邏輯回歸、毒物回歸)中,我們假設響應來自某種分佈(二項式、泊松等)。

為什麼有時假設剩餘而其他時間假設響應?是不是因為我們要導出不同的屬性?


編輯:我認為mark999 的顯示兩種形式是相等的。但是,我對 iid 確實還有一個疑問:

我的另一個問題, 邏輯回歸是否有獨立同分佈的假設?顯示廣義線性模型沒有獨立同分佈假設(獨立但不相同)

對於線性回歸,如果我們對殘差提出假設,我們將有獨立同分佈,但如果我們對響應提出假設,我們將有獨立但不相同的樣本(不同的高斯與不同的)?

具有高斯誤差的簡單線性回歸是一個非常好的屬性,它不能推廣到廣義線性模型。

在廣義線性模型中,響應遵循給定的分佈,給定均值。線性回歸遵循這種模式;如果我們有

那麼我們也有

好的,所以響應遵循廣義線性模型的給定分佈,但對於線性回歸,我們有殘差遵循高斯分佈。為什麼要強調殘差是正常的,而不是一般規則?好吧,因為這是更有用的規則。考慮殘差的正態性的好處是這更容易檢查。如果我們減去估計的均值,所有殘差應該具有大致相同的方差和大致相同的均值 (0),並且將大致呈正態分佈(注意:我說“大致”是因為如果我們沒有完美的估計回歸參數,當然我們沒有,估計的方差將有不同的方差基於範圍. 但希望估計有足夠的精度,這是可以忽略的!)。

另一方面,看著未調整的的,如果他們都有不同的手段,我們真的無法判斷他們是否正常。例如,考慮以下模型:

和和

然後將是高度雙峰的,但不違反線性回歸的假設!另一方面,殘差將遵循大致正態分佈。

這裡有一些R代碼來說明。

x <- rbinom(1000, size = 1, prob = 0.5)
y <- 2 * x + rnorm(1000, sd = 0.2)
fit <- lm(y ~ x)
resids <- residuals(fit)
par(mfrow = c(1,2))
hist(y, main = 'Distribution of Responses')
hist(resids, main = 'Distribution of Residuals')

直方圖

引用自:https://stats.stackexchange.com/questions/261409

comments powered by Disqus