Clustering

在聚類分析中為變量分配權重

  • November 27, 2013

我想在我的聚類分析中為變量分配不同的權重,但我的程序(Stata)似乎沒有這個選項,所以我需要手動完成。

想像 4 個變量 A、B、C、D。這些變量的權重應該是

w(A)=50%
w(B)=25%
w(C)=10%
w(D)=15%

我想知道以下兩種方法中的一種是否真的可以解決問題:

  1. 首先,我標準化所有變量(例如通過它們的範圍)。然後我將每個標準化變量乘以它們的權重。然後進行聚類分析。
  2. 我將所有變量乘以它們的權重,然後將它們標準化。然後進行聚類分析。

或者這兩個想法都是胡說八道?

[編輯] 我希望使用的聚類算法(我嘗試了 3 種不同)是 k-means、加權平均鏈接和平均鏈接。我計劃使用加權平均鏈接來確定大量集群,然後將其插入 k-means。

為變量分配權重的一種方法是更改​​其比例。該技巧適用於您提到的聚類算法,即。k-means,加權平均鏈接和平均鏈接。

考夫曼、倫納德和彼得 J.盧梭。“在數據中尋找組:聚類分析簡介。” (2005) - 第 11 頁:

測量單位的選擇會產生變量的相對權重。以較小的單位表示變量將導致該變量的範圍更大,這將對最終的結構產生很大的影響。另一方面,通過標準化嘗試賦予所有變量同等權重,以期實現客觀性。因此,它可以由沒有先驗知識的從業者使用。然而,很可能某些變量在特定應用中本質上比其他變量更重要,然後權重的分配應該基於主題知識(例如,參見 Abrahamowicz,1985 年)。

另一方面,有人嘗試設計獨立於變量規模的聚類技術(弗里德曼和魯賓,1967)。Hardy 和 Rasson (1982) 的建議是尋找一個最小化集群凸包總體積的分區。原則上,這種方法對於數據的線性變換是不變的,但不幸的是,不存在用於其實現的算法(除了限於二維的近似值)。因此,標準化的困境在目前看來是不可避免的,本書所描述的程序將選擇權留給用戶

Abrahamowicz, M. (1985), The use of non-numerical a pnon information for measure dissimilarities, 在心理測量學會和分類學會第四次歐洲會議上發表的論文,7 月 2-5 日,劍橋(英國)。

Friedman, HP 和 Rubin, J. (1967),關於分組數據的一些不變標準。Ĵ。阿米爾。統計學家。ASSOC6.,2, 1159-1178。

Hardy, A. 和 Rasson, JP (1982), Une nouvelle approche des problemes de classification automatique, Statist。肛門。唐尼斯,7 歲,41-56 歲。

引用自:https://stats.stackexchange.com/questions/77850

comments powered by Disqus