Markov-Process

馬爾可夫決策過程的真實例子

  • April 7, 2015

我一直在看很多教程視頻,它們看起來都一樣。例如:https ://www.youtube.com/watch?v=ip4iSMRW5X4

他們解釋了很好的狀態、動作和概率。該人解釋得很好,但我似乎無法掌握它在現實生活中的用途。到目前為止,我還沒有遇到任何列表。我看到的最常見的是國際象棋。

它可以用來預測事物嗎?如果有,是什麼類型的東西?它可以在無限量的數據中找到模式嗎?這個算法能為我做什麼。

獎勵:感覺 MDP 就是從一個州到另一個州,這是真的嗎?

馬爾可夫決策過程確實與從一個狀態到另一個狀態有關,主要用於計劃決策

理論

快速重複這個理論,MDP 是:

$$ \text{MDP} = \langle S,A,T,R,\gamma \rangle $$

在哪裡 $ S $ 是州, $ A $ 行動, $ T $ 轉移概率(即概率 $ Pr(s'|s, a) $ 給定一個動作從一個狀態到另一個狀態), $ R $ 獎勵(給定特定狀態,可能還有動作),以及 $ \gamma $ 是一個折扣因子,用於降低未來獎勵的重要性。

因此,為了使用它,您需要預定義:

  1. 狀態:這些可以參考例如機器人技術中的網格圖,或者例如門打開門關閉
  2. 動作:一組固定的動作,例如機器人向北、向南、向東等,或者打開和關閉一扇門。
  3. 轉移概率:給定動作從一種狀態到另一種狀態的概率。例如,如果動作是打開的,那麼門打開的概率是多少。在完美世界中,後者可能是 1.0,但如果它是機器人,它可能無法正確處理門把手。移動機器人的另一個例子是動作north,在大多數情況下會將它帶到它以北的網格單元格中,但在某些情況下可能移動太多並到達下一個單元格。
  4. 獎勵:這些用於指導計劃。在網格示例的情況下,我們可能想去某個單元格,如果我們靠近,獎勵會更高。在門的例子中,一扇敞開的門可能會帶來很高的回報。

一旦定義了 MDP,就可以通過計算每個狀態的預期獎勵的值迭代策略迭代來學習策略。然後,該策略為每個狀態提供最佳(給定 MDP 模型)要執行的操作。

總而言之,當您想要計劃一個有效的行動序列時,MDP 很有用,在這些行動中您的行動並不總是 100% 有效。

你的問題

它可以用來預測事物嗎?

我稱之為計劃,而不是像回歸那樣進行預測。

如果有,是什麼類型的東西?

請參閱示例

它可以在無限量的數據中找到模式嗎?

MDP 用於進行強化學習,以找到您需要無監督學習的模式。不,您無法處理無限量的數據。實際上,尋找策略的複雜性隨著狀態的數量呈指數增長 $ |S| $ .

這個算法能為我做什麼。

請參閱示例

MDP的應用示例

  • White, DJ (1993)提到了大量的應用:

    • 收穫:必須留下多少人口進行繁殖。
    • 農業:根據天氣和土壤狀況種植多少。
    • 水資源:保持水庫水位正確。
    • 檢查、維護和修理:根據年齡、狀況等何時更換/檢查。
    • 採購和生產:根據需求生產多少。
    • 隊列:減少等待時間。
  • 財務:決定投資多少股票。

  • 機器人:

還有更多的模型。一個更有趣的模型是部分可觀察馬爾可夫決策過程,其中狀態不是完全可見的,而是使用觀察來了解當前狀態,但這超出了本問題的範圍。

附加信息

如果未來狀態的條件概率分佈僅取決於當前狀態,而不取決於先前的狀態(即不取決於先前狀態的列表),則隨機過程是馬爾可夫(或具有馬爾可夫性質)。

引用自:https://stats.stackexchange.com/questions/145122

comments powered by Disqus

相關問答