Regression
線性回歸:為什麼您可以劃分平方和?
這篇文章是指雙變量線性回歸模型,. 我一直將總平方和 (SSTO) 劃分為誤差平方和 (SSE) 和模型平方和 (SSR),但是一旦我開始真正考慮它,我就不明白了為什麼它有效…
- 我理解的部分*:*
- y 的觀測值
- :所有觀察到的平均值s
- 給定觀測值 x 的 y 擬合/預測值
:殘差/誤差(如果對所有觀察結果進行平方和相加,則為 SSE)
:模型擬合值與平均值相差多少(如果對所有觀察結果進行平方和相加,則為 SSR)
:觀察值與平均值的差異有多大(如果對所有觀察值求和,則為 SSTO)。
我能理解為什麼,對於一個單一的觀察,沒有平方任何東西,. 我能理解為什麼,如果你想把所有的觀察結果相加,你必須把它們平方,否則它們加起來就是 0。
我不明白的部分是為什麼(例如,SSTO = SSR + SSE)。似乎是,如果你有一個情況, 然後, 不是. 為什麼這裡不是這樣?
似乎是,如果你有一個情況, 然後 , 不是. 為什麼這裡不是這樣?
從概念上講,這個想法是因為和是正交的(即垂直的)。
在線性回歸的上下文中,殘差與貶損預測正交. 線性回歸的預測創建了一個正交分解在類似的意義上是正交分解。
線性代數版本:
讓:
線性回歸(包括常數)分解兩個向量之和:一個預測和一個殘差
最後一行來自以下事實:(即和是正交的)。你可以證明和基於普通最小二乘回歸的構造方式是正交的.
是的線性投影到由回歸量的線性跨度定義的子空間上,, 等等…. 殘差因此與整個子空間正交(位於跨度,, 等等…) 正交於.
請注意,正如我定義的作為點積,只是另一種寫作方式(即 SSTO = SSR + SSE)