Clustering
聚類分析和判別分析
正如我在文獻中不時看到的那樣(主要是關於精神障礙的臨床分型),對像 k-means 這樣的聚類算法的結果使用判別分析 (DA) 的基本原理是什麼?
通常不建議測試集群構建期間使用的變量的組差異,因為它們支持類間(或類內)慣性的最大化(或最小化)。因此,我不確定完全理解預測 DA 的附加價值,除非我們尋求將個體嵌入到較低維度的階乘空間中並了解這種分區的“普遍性”。但即使在這種情況下,聚類分析基本上仍然是一種探索性工具,因此使用這種方式計算的類成員關係來進一步推導評分規則乍一看似乎很奇怪。
對相關論文有任何建議、想法或指示嗎?
我不知道有這方面的論文。出於描述目的,我使用了這種方法。DFA 提供了一種很好的方法來總結與原始變量相關的組差異和維度。人們可能更容易只對原始變量上的組進行剖析,但是,這失去了聚類問題固有的多變量性質。DFA 允許您描述組,同時保持問題的多變量特徵不變。因此,它可以幫助解釋集群,這是一個目標。當您的聚類方法和分類方法(例如 DFA 和 Ward 方法)之間存在密切關係時,這尤其理想。
您對測試問題是正確的。我發表了一篇使用帶有 DFA 後續的聚類分析的論文來描述聚類解決方案。我展示了沒有測試統計的 DFA 結果。一位審稿人對此提出了質疑。我承認並將測試統計數據和 p 值放在那裡,並聲明這些 p 值不應以傳統方式解釋。