Deep-Learning
博弈論和強化學習有什麼關係?
我對**(深度)強化學習(RL)很感興趣。在進入這個領域之前,我應該參加博弈論 (GT)**課程嗎?
GT和RL有什麼關係?
在強化學習 (RL) 中,通常會想像一個潛在的馬爾可夫決策過程 (MDP)。那麼 RL 的目標是為 MDP 學習一個好的策略,這通常只是部分指定的。MDP 可以有不同的目標,例如總獎勵、平均獎勵或折扣獎勵,其中折扣獎勵是 RL 最常見的假設。有充分研究的 MDP 擴展到兩人(即遊戲)設置;見,例如,
Filar、Jerzy 和 Koos Vrieze。競爭馬爾可夫決策過程。施普林格科學與商業媒體,2012 年。
MDP 及其對兩人(零和)博弈的擴展共享一個基本理論,包括例如 Banach 不動點定理、價值迭代、貝爾曼最優性、策略迭代/策略改進等。然而,雖然有MDP(以及 RL)與這些特定類型的遊戲之間的密切聯繫:
- 您可以直接了解 RL(和 MDP),無需 GT 作為先決條件;
- 無論如何,您不會在大多數 GT 課程中了解這些內容(通常會關注例如戰略形式、擴展形式和重複博弈,而不是概括 MDP 的基於狀態的無限博弈)。