在什麼樣的現實生活中，我們可以使用多臂老虎機算法？

August 18, 2016

多臂強盜在您有選擇但不確定哪一個會最大化您的幸福的情況下工作得很好。您可以將該算法用於一些現實生活中的情況。例如，學習可以是一個很好的領域：

如果一個孩子正在學習木工並且他不擅長，算法會告訴他/她他/她可能需要繼續前進。如果他/她擅長，算法會告訴他/她繼續學習該領域。

約會也是一個很好的領域：

你是一個男人，為了追求一位女士而付出了很多“努力”。但是，您的努力絕對不受歡迎。該算法應該“略微”（或強烈）推動您繼續前進。

我們可以將多臂老虎機算法用於其他哪些現實情況？

PS：如果問題太籠統，請發表評論。如果有共識，我將刪除我的問題。

當您玩原始口袋妖怪遊戲（紅色或藍色和黃色）並到達青瓷城時，Team Rocket 老虎機有不同的機率。如果您想優化讓 Porygon 真正快速運行，那麼 Multi-Arm Bandit 就在那裡。

嚴肅地說，人們談論在機器學習中選擇調整變量的問題。特別是如果你有很多變量，探索與利用就會被談論。請參閱像 Spearmint 甚至本主題中的新論文，它使用超級簡單的算法來選擇調整參數（並且方式優於其他調整變量技術）

引用自：https://stats.stackexchange.com/questions/230523

comments powered by Disqus

相關問答

Machine-Learning

監督學習是強化學習的一個子集嗎？

September 23, 2018

Deep-Q 學習本質上是不穩定的嗎

June 12, 2018

Reinforcement-Learning

在強化學習中預測和控制什麼？

April 14, 2018

蒙特卡洛方法何時優於時間差異方法？

March 27, 2018

Reinforcement-Learning

為什麼我們不使用重要性抽樣進行一步 Q 學習？

March 19, 2018

Reinforcement-Learning

在 Dyna-Q 中進行規劃是一種體驗回放的形式嗎？

February 25, 2018