博弈論和強化學習有什麼關係？

April 21, 2016

我對**（深度）強化學習（RL）很感興趣。在進入這個領域之前，我應該參加博弈論 (GT)**課程嗎？

GT和RL有什麼關係？

在強化學習 (RL) 中，通常會想像一個潛在的馬爾可夫決策過程 (MDP)。那麼 RL 的目標是為 MDP 學習一個好的策略，這通常只是部分指定的。MDP 可以有不同的目標，例如總獎勵、平均獎勵或折扣獎勵，其中折扣獎勵是 RL 最常見的假設。有充分研究的 MDP 擴展到兩人（即遊戲）設置；見，例如，

Filar、Jerzy 和 Koos Vrieze。競爭馬爾可夫決策過程。施普林格科學與商業媒體，2012 年。

MDP 及其對兩人（零和）博弈的擴展共享一個基本理論，包括例如 Banach 不動點定理、價值迭代、貝爾曼最優性、策略迭代/策略改進等。然而，雖然有MDP（以及 RL）與這些特定類型的遊戲之間的密切聯繫：

您可以直接了解 RL（和 MDP），無需 GT 作為先決條件；

無論如何，您不會在大多數 GT 課程中了解這些內容（通常會關注例如戰略形式、擴展形式和重複博弈，而不是概括 MDP 的基於狀態的無限博弈）。

引用自：https://stats.stackexchange.com/questions/208661

comments powered by Disqus

博弈論和強化學習有什麼關係？

相關問答

監督學習是強化學習的一個子集嗎？

Deep-Q 學習本質上是不穩定的嗎

在強化學習中預測和控制什麼？

蒙特卡洛方法何時優於時間差異方法？

為什麼我們不使用重要性抽樣進行一步 Q 學習？

在 Dyna-Q 中進行規劃是一種體驗回放的形式嗎？