Reinforcement-Learning
為什麼我們不使用重要性抽樣進行一步 Q 學習?
為什麼我們不使用重要性抽樣進行 1 步 Q 學習?
Q-learning 是脫離策略的,這意味著我們生成的樣本具有與我們嘗試優化的策略不同的策略。因此,通過使用行為策略生成的樣本,應該不可能估計目標策略的每個狀態-動作對的回報預期。
這是 1-step Q-learning 的更新規則:
這是Sutton 的 RL 書籍的鏈接,以備您查找。
這是您提供的一步式 Q-learning 更新規則:
該更新規則實際上與“目標策略”(在這種情況下為貪婪策略)正在執行的操作完全匹配;我們更新我們剛剛獲得新觀察的狀態-動作對的值(, 新的觀察是)假設我們隨後立即跟進貪婪/目標策略(導致)。在這個等式中,我們可能沒有根據目標策略採取的唯一行動是行動,但這很好,因為我們正在更新的正是相同的操作-價值。
現在假設我們嘗試天真地編寫多步(或兩步)更新規則,而不進行重要性採樣。如下所示:
此更新規則假定我們的行為策略(通常類似於-greedy) 用於選擇另一個動作,導致額外的獎勵觀察和狀態. 在這個更新規則中,我們突然遇到了離策略學習的問題,因為我們的更新規則使用了獎勵那是行動的結果我們的目標策略可能沒有選擇,這是一個不同的操作() 我們實際上正在更新-價值。如果僅用於更新,則使用來自“不正確”操作的信息很好- 那些相同的“不正確”動作的值,但如果我們使用它來更新就不行了- 不同(“正確”)動作的值(貪婪/目標策略也會選擇的動作)。