Neural-Networks
深度Q學習中的epoch和epoch有什麼區別?
我試圖理解著名的論文“Playing Atari with Deep Reinforcement Learning”(pdf)。我不清楚epoch和episode之間的區別。在算法中,外循環結束了劇集,而在圖中x 軸標記為epoch。在強化學習的背景下,我不清楚時代意味著什麼。一個時代是圍繞情節循環的外循環嗎?
- 一個情節= 一個狀態、動作和獎勵的序列,以最終狀態結束。例如,玩一整場遊戲可以被視為一個情節,當一名玩家輸/贏/平時達到最終狀態。有時,人們可能更願意將一集定義為幾場比賽(例如:“每一集是幾十場比賽,因為每個玩家的比賽得分都達到 21”)。
- 在神經網絡術語中,一個epoch =所有訓練示例的一次前向傳遞和一次反向傳遞。
在您提到的論文中,他們似乎對時代的含義更加靈活,因為他們只是將一個時代定義為一定數量的權重更新。因此,正如您在問題中提到的那樣,您可以將一個時期視為圍繞情節循環的外部循環。