Regression
為什麼線性回歸對殘差有假設,但廣義線性模型對響應有假設?
為什麼線性回歸和廣義模型的假設不一致?
- 在線性回歸中,我們假設殘差來自高斯
- 在其他回歸(邏輯回歸、毒物回歸)中,我們假設響應來自某種分佈(二項式、泊松等)。
為什麼有時假設剩餘而其他時間假設響應?是不是因為我們要導出不同的屬性?
編輯:我認為mark999 的顯示兩種形式是相等的。但是,我對 iid 確實還有一個疑問:
我的另一個問題, 邏輯回歸是否有獨立同分佈的假設?顯示廣義線性模型沒有獨立同分佈假設(獨立但不相同)
對於線性回歸,如果我們對殘差提出假設,我們將有獨立同分佈,但如果我們對響應提出假設,我們將有獨立但不相同的樣本(不同的高斯與不同的)?
具有高斯誤差的簡單線性回歸是一個非常好的屬性,它不能推廣到廣義線性模型。
在廣義線性模型中,響應遵循給定的分佈,給定均值。線性回歸遵循這種模式;如果我們有
和
那麼我們也有
好的,所以響應遵循廣義線性模型的給定分佈,但對於線性回歸,我們也有殘差遵循高斯分佈。為什麼要強調殘差是正常的,而不是一般規則?好吧,因為這是更有用的規則。考慮殘差的正態性的好處是這更容易檢查。如果我們減去估計的均值,所有殘差應該具有大致相同的方差和大致相同的均值 (0),並且將大致呈正態分佈(注意:我說“大致”是因為如果我們沒有完美的估計回歸參數,當然我們沒有,估計的方差將有不同的方差基於範圍. 但希望估計有足夠的精度,這是可以忽略的!)。
另一方面,看著未調整的的,如果他們都有不同的手段,我們真的無法判斷他們是否正常。例如,考慮以下模型:
和和
然後將是高度雙峰的,但不違反線性回歸的假設!另一方面,殘差將遵循大致正態分佈。
這裡有一些
R
代碼來說明。x <- rbinom(1000, size = 1, prob = 0.5) y <- 2 * x + rnorm(1000, sd = 0.2) fit <- lm(y ~ x) resids <- residuals(fit) par(mfrow = c(1,2)) hist(y, main = 'Distribution of Responses') hist(resids, main = 'Distribution of Residuals')