我們真的在線性回歸的第一步中取隨機線嗎?
這是我從 Luis Serrano 製作的線性回歸視頻中截取的屏幕截圖。他逐步解釋了線性回歸(草稿版)。第一步是從隨機線開始。
問題是我們是否真的畫了一條隨機線,或者我們是否執行一些計算,比如取 y 值的平均值並最初畫一條線。因為如果我們採用任何隨機線,它可能根本不會落在任何點附近。也許它會落在坐標系的第三象限,在這種情況下沒有點。
不
我們想要找到的是導致誤差最小的參數,OLS 將誤差定義為觀察值之間的平方差 $ y_i $ 和預測值 $ \hat y_i $ . 錯誤通常由 $ L $ 為“損失”。
$$ L(y, \hat y) = \sum_{i = 1}^N \bigg(y_i - \hat y_i\bigg)^2 $$
我們有我們的回歸模型, $ \hat y_i =\hat\beta_0 + \hat\beta_1x $ , 所以 $ \hat y $ 是一個函數 $ \hat\beta_0 $ 和 $ \hat\beta_1 $ .
$$ L(y, \hat\beta_0, \hat\beta_1) = \sum_{i = 1}^N \bigg(y_i - (\hat\beta_0 + \hat\beta_1x)\bigg)^2 $$
我們想找到 $ \hat\beta_0 $ 和 $ \hat\beta_1 $ 最小化 $ L $ .
視頻所做的是模擬整個“損失函數”的各個部分。為了 $ \hat\beta_0 = 1 $ 和 $ \hat\beta_1 = 7 $ ,你得到一定的損失值。為了 $ \hat\beta_0 = 1 $ 和 $ \hat\beta_1 = 8 $ ,你得到另一個損失值。找到最小值的一種方法是選擇隨機值,直到找到一個導致損失值看起來足夠低的值(或者您已經厭倦了等待)。許多深度學習工作都使用了這種方法的變體,使用隨機梯度下降等技巧使算法在短時間內獲得(接近)正確答案。
然而,在 OLS 線性回歸中,微積分為我們提供了最小化問題的解決方案,我們不必玩這樣的遊戲。
$$ \hat\beta_1=\frac{cov(x,y)}{var(x)}\ \hat\beta_0=\bar y-\hat\beta_1\bar x $$