Deep-Learning

Deep-Q 學習本質上是不穩定的嗎

  • June 12, 2018

我正在閱讀 Barto 和 Sutton 的強化學習,在其中(第 11 章)他們提出了“致命的三合會”:

  1. 函數逼近
  2. 自舉
  3. 政策外培訓

他們指出,使用所有這 3 個的算法是不穩定的,並且在訓練中容易發散。我的想法是,深度 Q 學習不是對這三個方面都有影響嗎?它當然使用深度神經網絡形式的函數逼近,它使用自舉,因為它是一種時間差分學習形式,因此它的更新基於未來的 Q 值,它使用離策略訓練,因為它的值更新利用了最大值的未來時間步長 Q 值,而正在訓練的策略(行為策略)可能不是貪心算法。

在我看來,深度 Q 學習本質上應該是不穩定的。這是真的,還是我的理解有誤?如果它實際上本質上是不穩定的,那麼後續問題將是,它在實踐中是否不穩定?即是否存在深度 Q 學習不穩定的一大類問題,或者對於絕大多數問題使用深度 Q 學習通常仍然可以,但是深度 Q 學習可以解決一些小問題可能不穩定?

鑑於重放記憶、梯度裁剪、獎勵裁剪、精心選擇的推出策略和使用目標網絡等技巧通常是實現合理性能所必需的,即使這樣訓練也可能不穩定,是的,在實踐。

這並不意味著它在實踐中不起作用——DeepMind 的 Atari 論文表明,借助上述技巧,它確實是可能的。然而,它相當具有挑戰性,需要數千萬步才能正確訓練。

引用自:https://stats.stackexchange.com/questions/351082

comments powered by Disqus