參數與潛在變量
我之前曾問過這個問題,並且一直在努力確定是什麼構成了模型參數以及什麼使它成為了潛在變量。因此,查看此站點上有關此主題的各種主題,主要區別似乎是:
未觀察到潛在變量,但與它們具有相關的概率分佈,因為它們是變量,並且參數也未觀察到並且沒有與它們相關的分佈,我理解這些是常數並且具有我們正在嘗試的固定但未知的值尋找。此外,我們可以將先驗放在參數上,以表示我們對這些參數的不確定性,即使只有一個與它們相關聯的真實值,或者至少這是我們假設的。我希望我到目前為止是正確的?
現在,我一直在查看來自期刊論文的貝葉斯加權線性回歸的示例,並且一直在努力理解什麼是參數和什麼是變量:
這裡和被觀察到,但只有被視為一個變量,即具有與之相關的分佈。
現在,建模假設是:
所以,方差是加權的。
還有一個先驗分佈和,分別是正態分佈和伽馬分佈。
因此,完整的對數似然由下式給出:
現在,據我了解和是模型參數。然而,在論文中,他們一直將它們稱為潛在變量。我的理由是和都是變量概率分佈的一部分它們是模型參數。然而,作者將它們視為潛在隨機變量。那是對的嗎?如果是這樣,模型參數是什麼?
該論文可以在這裡找到(http://www.jting.net/pubs/2007/ting-ICRA2007.pdf)。
該論文是自動異常值檢測:Ting 等人的貝葉斯方法。
在本文中,一般來說,(隨機)變量是從概率分佈中提取的所有內容。潛在(隨機)變量是您不直接觀察到的變量( $ y $ 被觀察到, $ \beta $ 不是,但兩者都是 rv)。從潛在隨機變量中,您可以獲得後驗分佈,這是其以觀察數據為條件的概率分佈。
另一方面,一個參數是固定的,即使你不知道它的值。例如,最大似然估計為您提供參數的最可能值。但它給了你一點,不是一個完整的分佈,因為固定的東西沒有分佈!(您可以根據您對該值的確定程度或您認為該值在什麼範圍內進行分佈,但這與值本身的分佈不同,僅當值實際上是隨機的時才存在多變的)
在貝葉斯設置中,您可以擁有所有這些。在這裡,參數是諸如集群數量之類的東西;您將此值賦予模型,模型將其視為固定數字。 $ y $ 是一個隨機變量,因為它是從一個分佈中得出的,並且 $ \beta $ 和 $ w $ 是潛在隨機變量,因為它們也是從概率分佈中得出的。事實是 $ y $ 依賴於取決於 $ \beta $ 和 $ w $ 不會使它們成為“參數”,它只會使 $ y $ 取決於兩個隨機變量。
他們在論文中認為 $ \beta $ 和 $ w $ 是隨機變量。
在這句話中:
這些更新方程需要迭代運行,直到所有參數和完整的對數似然收斂到穩定值
從理論上講,他們談論的是兩個參數,而不是隨機變量,因為在 EM 中這就是你所做的,優化參數。