Machine-Learning

現代機器學習和偏差-方差權衡

  • June 23, 2021

我偶然發現了以下論文Reconciling modern machine learning practice and the bias-variance trade-off並且不完全理解他們如何證明他們的論文中描述的雙下降風險曲線(見下文)。

在此處輸入圖像描述

他們在介紹中說:

通過考慮更大的函數類,其中包含更多與數據兼容的候選預測變量,我們能夠找到具有更小範數並因此“更簡單”的插值函數。因此,增加函數類容量可以提高分類器的性能。

由此我可以理解為什麼測試風險會隨著功能類容量的變化而降低。

然而,我不明白為什麼測試風險會增加到插值點然後再次降低。為什麼數據點的數量恰好在插值點 $ n $ 等於函數參數 $ N $ ?

如果有人可以在這裡幫助我,我會很高興。

關於貝爾金雙下降法的要點是,在插值閾值處,即精確擬合訓練數據的最小模型容量,解決方案的數量非常有限。模型必須“拉伸”以達到容量有限的插值閾值。

當您進一步增加容量時,插值解決方案的空間就會打開,實際上允許優化以達到較低範數的插值解決方案。這些傾向於更好地概括,這就是為什麼你會在測試數據上獲得第二次下降。

引用自:https://stats.stackexchange.com/questions/531854

comments powered by Disqus