Machine-Learning
現代機器學習和偏差-方差權衡
我偶然發現了以下論文Reconciling modern machine learning practice and the bias-variance trade-off並且不完全理解他們如何證明他們的論文中描述的雙下降風險曲線(見下文)。
他們在介紹中說:
通過考慮更大的函數類,其中包含更多與數據兼容的候選預測變量,我們能夠找到具有更小範數並因此“更簡單”的插值函數。因此,增加函數類容量可以提高分類器的性能。
由此我可以理解為什麼測試風險會隨著功能類容量的變化而降低。
然而,我不明白為什麼測試風險會增加到插值點然後再次降低。為什麼數據點的數量恰好在插值點 $ n $ 等於函數參數 $ N $ ?
如果有人可以在這裡幫助我,我會很高興。
關於貝爾金雙下降法的要點是,在插值閾值處,即精確擬合訓練數據的最小模型容量,解決方案的數量非常有限。模型必須“拉伸”以達到容量有限的插值閾值。
當您進一步增加容量時,插值解決方案的空間就會打開,實際上允許優化以達到較低範數的插值解決方案。這些傾向於更好地概括,這就是為什麼你會在測試數據上獲得第二次下降。