Neural-Networks

深度Q學習中的epoch和epoch有什麼區別?

  • December 11, 2016

我試圖理解著名的論文“Playing Atari with Deep Reinforcement Learning”(pdf)。我不清楚epochepisode之間的區別。在算法中,外循環結束了劇集,而在圖中x 軸標記為epoch。在強化學習的背景下,我不清楚時代意味著什麼。一個時代是圍繞情節循環的外循環嗎?

在此處輸入圖像描述

在此處輸入圖像描述

  • 一個情節= 一個狀態、動作和獎勵的序列,以最終狀態結束。例如,玩一整場遊戲可以被視為一個情節,當一名玩家輸/贏/平時達到最終狀態。有時,人們可能更願意將一集定義為幾場比賽(例如:“每一集是幾十場比賽,因為每個玩家的比賽得分都達到 21”)。
  • 在神經網絡術語中,一個epoch =所有訓練示例的一次前向傳遞和一次反向傳遞。

在您提到的論文中,他們似乎對時代的含義更加靈活,因為他們只是將一個時代定義為一定數量的權重更新。因此,正如您在問題中提到的那樣,您可以將一個時期視為圍繞情節循環的外部循環。

引用自:https://stats.stackexchange.com/questions/250943

comments powered by Disqus