Regression
為什麼使用線性回歸而不是平均 y per x
具體來說,如果我們有興趣根據房屋大小(平方米)預測房價(美元),我們可以計算出最佳擬合線並將其用於預測新值。
但是為什麼不簡單地計算每平方米的平均價格並將其用於我們的預測呢?我們也可以用它來繪製一條線,不是嗎?
我只是對兩者之間的區別感到有些困惑。
這取決於您如何判斷模型的質量。大多數人都會同意的一般方法是,一個好的預測模型可以最大限度地減少無法解釋的部分或錯誤(預測值 - 觀察值)。您可以定義一個模型來最大限度地減少總體錯誤。或者您可以定義一個模型來最小化平方誤差的總和() 全面的. 最後一個版本是最小二乘法,如果滿足所有假設,它將提出最佳線性無偏估計量(而不是例如您的均值比)。
基本上,以平方米為單位的房價平均值不會最大限度地減少您的預測誤差,因為它無法容納與每平方米平均房價的較大偏差。只有最小二乘,即您的預測值減去觀察值的所有平方偏差的最小總和,才能得出一條最適合您的數據云的線。
對於 R 中的一個最小示例,請考慮以下內容:
hp = c(500, 750, 800, 900, 1000, 1000, 1100) sm = c(100, 120, 130, 130, 150, 160, 165)
房價 (hp) 和平方米 (sm)。
繪圖時,您會得到一個圖形,其中 sm 的增加與 hp 的增加密切相關
現在,您可以按照您的建議進行操作:
apsm = mean(hp/sm)
也就是說,您將 hp 除以其 sm 並取平均值以獲得每平方米的平均值 (apsm)。
要預測房價,您可以獲得預測值向量 pred ()
pred = apsm*sm
您的預測線現在如下所示:
這條線的問題在於它不是最小化錯誤的線(hp-pred = error)。或者更準確地說,它不會最小化所有平方誤差的總和。
如果您要使用例如運行線性模型。
lm(hp ~ sm)
您的擬合線(紅色)會有所不同,並且會更有效且更公正: