Clustering

調整後的蘭德指數與調整後的互信息

  • February 7, 2017

我正在嘗試評估聚類性能。我正在閱讀有關metrics的 skiscit-learn 文檔。我不明白 ARI 和 AMI 之間的區別。在我看來,他們以兩種不同的方式做同樣的事情。

從文檔中引用:

鑑於基本事實類分配標籤_true和我們對相同樣本標籤_pred的聚類算法分配的知識,調整後的蘭德指數是一個衡量兩個分配相似性的函數,忽略排列和機會歸一化。

對比

鑑於地面實況類分配labels_true和我們對相同樣本labels_pred的聚類算法分配的知識,互信息是一個衡量兩個分配一致性的函數,忽略排列……AMI是最近提出的,並且針對機會。

我應該在我的聚類評估中同時使用它們還是這會是多餘的?

它們是所有試圖比較聚類的十幾個中的兩個。

但它們並不等價。他們使用不同的理論。

有時,ARI 可能更喜歡一種結果,而 AMI 可能更喜歡另一種結果。但他們通常在偏好上達成一致(而不是在數字上)。

引用自:https://stats.stackexchange.com/questions/260487

comments powered by Disqus