Neural-Networks

損失函數的二階近似(深度學習書籍,7.33)

  • April 24, 2019

在 Goodfellow(2016 年)關於深度學習的書中,他談到了提前停止與 L2 正則化的等效性(https://www.deeplearningbook.org/contents/regularization.html第 247 頁)。

成本函數的二次逼近 $ j $ 是(誰)給的:

$$ \hat{J}(\theta)=J(w^)+\frac{1}{2}(w-w^)^TH(w-w^*) $$

在哪裡 $ H $ 是 Hessian 矩陣(方程 7.33)。這是缺少中期嗎?泰勒展開式應該是: $$ f(w+\epsilon)=f(w)+f'(w)\cdot\epsilon+\frac{1}{2}f''(w)\cdot\epsilon^2 $$

他們談論最佳重量:

我們可以對成本函數進行建模 $ J $ 在權重的經驗最優值附近具有二次近似 $ w^∗ $

此時,一階導數為零——因此省略了中間項。

引用自:https://stats.stackexchange.com/questions/404781

comments powered by Disqus