Regression

線性回歸:為什麼您可以劃分平方和?

  • January 26, 2017

這篇文章是指雙變量線性回歸模型,. 我一直將總平方和 (SSTO) 劃分為誤差平方和 (SSE) 和模型平方和 (SSR),但是一旦我開始真正考慮它,我就不明白了為什麼它有效…

我理解的部分*:*
y 的觀測值
:所有觀察到的平均值s
給定觀測值 x 的 y 擬合/預測值

:殘差/誤差(如果對所有觀察結果進行平方和相加,則為 SSE)

:模型擬合值與平均值相差多少(如果對所有觀察結果進行平方和相加,則為 SSR)

:觀察值與平均值的差異有多大(如果對所有觀察值求和,則為 SSTO)。

我能理解為什麼,對於一個單一的觀察,沒有平方任何東西,. 我能理解為什麼,如果你想把所有的觀察結果相加,你必須把它們平方,否則它們加起來就是 0。

我不明白的部分是為什麼(例如,SSTO = SSR + SSE)。似乎是,如果你有一個情況, 然後, 不是. 為什麼這裡不是這樣?

似乎是,如果你有一個情況, 然後 , 不是. 為什麼這裡不是這樣?

從概念上講,這個想法是因為和是正交的(即垂直的)。


在線性回歸的上下文中,殘差與貶損預測正交. 線性回歸的預測創建了一個正交分解在類似的意義上是正交分解。

線性代數版本:

讓:

線性回歸(包括常數)分解兩個向量之和:一個預測和一個殘差

讓表示點積。(更普遍,可以是內積 .)

最後一行來自以下事實:(即和是正交的)。你可以證明和基於普通最小二乘回歸的構造方式是正交的.

是的線性投影到由回歸量的線性跨度定義的子空間上,, 等等…. 殘差因此與整個子空間正交(位於跨度,, 等等…) 正交於.


請注意,正如我定義的作為點積,只是另一種寫作方式(即 SSTO = SSR + SSE)

引用自:https://stats.stackexchange.com/questions/258284

comments powered by Disqus