Categorical-Data
具有濃度參數超先驗分佈的多項-狄利克雷模型
我將嘗試盡可能籠統地描述手頭的問題。我將觀察建模為具有參數概率向量 theta的分類分佈。
然後,我假設參數向量 theta 遵循帶參數的狄利克雷先驗分佈.
那麼是否可以對參數施加超先驗分佈? 它是否必須是多元分佈,例如分類分佈和狄利克雷分佈?在我看來,阿爾法總是積極的,所以伽馬超先驗應該起作用。
不確定是否有人嘗試過擬合這種(可能)過度參數化的模型,但我認為 alpha 不應該是固定的,而是來自 gamma 分佈似乎是合理的。
請嘗試為我提供一些參考資料,以及我如何在實踐中嘗試這種方法的見解。
我不認為這是一個“過度參數化”的模型。我會爭辯說,通過在 Dirichlet 參數上放置先驗,您對任何特定結果的承諾都會減少。特別是,您可能知道,對於對稱狄利克雷分佈(即) 環境為稀疏多項式分佈提供更多先驗概率,而為平滑多項式分佈提供更多先驗概率.
在對稀疏或密集多項式分佈沒有強烈期望的情況下,在 Dirichlet 分佈上放置一個超先驗可以讓您的模型在它們之間進行選擇具有更大的靈活性。
我最初從這篇論文中得到了這樣做的想法。他們使用的超先驗與您的建議略有不同。他們從狄利克雷中採樣一個概率向量,然後通過從指數(或伽馬)中抽取來縮放它。所以模型是
額外的狄利克雷只是為了避免強加對稱性。
我還看到人們在具有多項發射分佈的隱藏馬爾可夫模型的上下文中僅使用 Gamma 超先驗作為 Dirichlet,但我似乎找不到參考。此外,似乎我在主題模型中遇到過類似的超級。