使用牛頓法優化 OLS

March 16, 2021

普通最小二乘回歸可以用牛頓法求解嗎？如果是這樣，需要多少步驟才能實現收斂？

我知道牛頓的方法適用於兩次可微函數，我只是不確定這如何與 OLS 一起使用。

如果用於 OLS 回歸，牛頓法在一步內收斂，等效於對係數使用標準的封閉形式解。

在每次迭代中，Newton 方法基於梯度和 Hessian 構造圍繞當前參數的損失函數的二次逼近。然後通過最小化這個近似值來更新參數。對於二次損失函數（正如我們在 OLS 回歸中所做的那樣），近似值等同於損失函數本身，因此收斂發生在一個步驟中。

這假設我們使用的是牛頓方法的“香草”版本。一些變體使用受限步長，在這種情況下需要多個步長。它還假設設計矩陣具有滿秩。如果這不成立，則 Hessian 是不可逆的，因此在不修改問題和/或更新規則的情況下不能使用牛頓法（此外，在這種情況下沒有唯一的 OLS 解決方案）。

證明

假設設計矩陣有滿級。讓成為響應，並且是係數。損失函數為：

梯度和 Hessian 是：

牛頓法將參數設置為初始猜測，然後迭代更新它們。讓成為迭代的當前參數 . 更新的參數通過減去逆 Hessian 和梯度的乘積得到：

插入梯度和 Hessian 的表達式：

這是 OLS 係數的標準封閉式表達式。因此，無論我們為初始猜測選擇什麼，我們將有正確的解決方案單次迭代後。

此外，這是一個靜止點。請注意，表達式不依賴於，所以如果我們繼續超過一次迭代，解決方案不會改變。這表明牛頓法一步收斂。

引用自：https://stats.stackexchange.com/questions/514095

使用牛頓法優化 OLS

證明

相關問答

深度學習的模擬退火：為什麼無梯度統計學習不是主流？

RMSE 與 MSE 損失函數 - 優化解決方案是等價的嗎？

線性回歸和最小二乘回歸一定是一回事嗎？

當因變量不是正態分佈時，OLS 估計量遵循什麼分佈？

為什麼我們在進行 MLE 時將對數似然乘以 -2？

中心極限定理與一致性之間的差異