Neural-Networks
損失函數的二階近似(深度學習書籍,7.33)
在 Goodfellow(2016 年)關於深度學習的書中,他談到了提前停止與 L2 正則化的等效性(https://www.deeplearningbook.org/contents/regularization.html第 247 頁)。
成本函數的二次逼近 $ j $ 是(誰)給的:
$$ \hat{J}(\theta)=J(w^)+\frac{1}{2}(w-w^)^TH(w-w^*) $$
在哪裡 $ H $ 是 Hessian 矩陣(方程 7.33)。這是缺少中期嗎?泰勒展開式應該是: $$ f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2 $$
他們談論最佳重量:
我們可以對成本函數進行建模 $ J $ 在權重的經驗最優值附近具有二次近似 $ w^∗ $
此時,一階導數為零——因此省略了中間項。