Machine-Learning

監督學習是強化學習的一個子集嗎?

  • September 23, 2018

監督學習的定義似乎是強化學習的一個子集,具有基於標記數據(與環境中的其他信息相反)的特定類型的獎勵函數。這是一個準確的描述嗎?

確實,任何監督學習問題都可以轉換為等效的強化學習問題:讓狀態對應於輸入數據。讓動作對應於輸出的預測。將獎勵定義為用於監督學習的損失函數的負值。最大化預期回報。相比之下,強化學習問題通常不能被視為監督學習問題。因此,從這個角度來看,監督學習問題是強化學習問題的一個子集。

但是,嘗試使用一般的強化學習算法來解決監督學習問題是毫無意義的。所有這一切都是丟棄本可以使問題更容易解決的結構。強化學習中出現了與監督學習無關的各種問題。而且,監督學習可以從不適用於一般強化學習環境的方法中受益。因此,儘管這些領域之間存在一些共同的基本原則和共享技術,但通常不會將監督學習視為一種強化學習。

參考

巴托和迪特里希 (2004)。強化學習及其與監督學習的關係。

引用自:https://stats.stackexchange.com/questions/368332

comments powered by Disqus