R

Mclust 型號選擇

  • September 27, 2016

R 包mclust使用 BIC 作為集群模型選擇的標準。據我了解,應該選擇 BIC 最低的模型而不是其他模型(如果您只關心 BIC)。但是,當 BIC 值全部為負時,該Mclust函數默認使用具有最高 BIC 值的模型。我對各種試驗的總體理解是mclust將“最佳”模型識別為具有.

我試圖理解為什麼作者做出這個決定。它在 CRAN 站點中進行了說明:https ://cran.r-project.org/web/packages/mclust/vignettes/mclust.html

此外,mclust軟件包的作者在他們的論文基於模型的分類方法:在第 5 頁上使用化學計量學中的 mclust 軟件中對此做了說明。

“最佳”模型被認為是擬合模型中 BIC 最高的模型。

任何人都可以闡明這個問題嗎?如果 BIC 越低越好,為什麼作者不選擇 BIC 最低的模型,而是選擇絕對 BIC 最小的模型?如果可能,請提供參考。

找到的解決方案:

那麼,重申一下問題,為什麼該Mclust函數默認將具有最高 BIC 值的模型作為“最佳”模型?

好問題!讓我給你一個冗長的答案。

TL;DR:BIC 值是綜合(非最大)似然的近似值,您需要具有最大綜合似然(貝葉斯因子)的模型,因此您選擇具有最大 BIC 的模型。

長答案:使用基於模型的聚類而不是基於啟發式的聚類方法(例如 k-means 和分層(凝聚)聚類)的目的是提供一種更正式和直觀的方法來比較和選擇適合您的數據的聚類模型。

Mclust 使用基於概率模型、高斯混合模型的聚類技術。使用概率模型允許開發基於模型的方法來比較不同的集群模型和大小。有關更多詳細信息,請參閱 * 基於模型的分類方法:在化學計量學中使用 mclust 軟件* ( https://www.jstatsoft.org/article/view/v018i06 )。

如上所述,作者指出“最佳”模型是具有最大 BIC 值的模型。以下是增強型基於模型的聚類、密度估計和判別分析軟件的另一個示例:MCLUST ( https://www.stat.washington.edu/raftery/Research/PDF/fraley2003.pdf ):

貝葉斯信息準則或 BIC (?) 是最大化對數似然的值,對模型中的參數數量進行了懲罰,並允許比較具有不同參數化和/或不同聚類數量的模型。一般來說,BIC 的值越大,模型和集群數量的證據就越強(參見例如 Fraley 和 Raftery 2002a)。

模型選擇:現在有一個概率模型附加到集群,您可以使用更複雜的工具通過貝葉斯因子使用貝葉斯模型選擇來比較多個集群模型。

在他們的論文中,有多少個集群?哪種聚類方法?通過基於模型的聚類分析得到答案http://www.stat.washington.edu/raftery/Research/PDF/fraley1998.pdf

貝葉斯因子是一個模型相對於另一個模型的後驗概率,假設兩者都不是先驗的。Banfield 和 Raftery [2] 使用啟發式推導出的近似值來計算兩倍對數貝葉斯因子,稱為“AWE”,以根據分類似然度確定層次聚類中的聚類數。當使用 EM 來尋找最大混合似然時,一個更可靠的近似值是對數貝葉斯因子的兩倍,稱為 BIC (Schwarz [32]):

在哪裡是模型 M 的數據的(綜合)可能性,是模型的最大混合對數似然,m_M 是模型中要估計的獨立參數的數量。出於計算 BIC 的目的,集群的數量不被視為獨立參數。如果每個模型都具有相同的可能性, 然後與數據符合模型的後驗概率成正比. 因此,BIC 值越大,模型的證據越強。

所以,總而言之,BIC 不應該被最小化。使用這種基於模型的聚類方法的人應該尋找使 BIC 最大化的模型,因為它以最大集成似然近似貝葉斯因子。

最後一條語句也有一個參考:

Banfield, JD 和 Raftery, AE (1993) 基於模型的高斯和非高斯聚類。生物識別,49, 803–821。

編輯:基於電子郵件交換,

作為旁注,請始終檢查 BIC 的定義方式。有時,例如在大多數回歸上下文中(傳統上,對於參數估計,統計量被最小化,例如殘差平方和、偏差等),BIC 計算為 -2loglik + nparlog(n),即mclust 中使用了什麼。顯然,在這種情況下,BIC 應該被最小化。

BIC 的一般定義是 ; mclust 不包括負面成分。

引用自:https://stats.stackexchange.com/questions/237220

comments powered by Disqus