對於分類數據,是否存在沒有相關變量的集群?
在試圖解釋聚類分析時,人們通常會誤解該過程與變量是否相關。讓人們擺脫這種困惑的一種方法是這樣的情節:
這清楚地表明了是否存在聚類問題和變量是否相關問題之間的差異。但是,這僅說明了連續數據的區別。我在考慮帶有分類數據的模擬時遇到了麻煩:
ID property.A property.B 1 yes yes 2 yes yes 3 yes yes 4 yes yes 5 no no 6 no no 7 no no 8 no no
我們可以看到有兩個明確的集群:同時擁有 A 和 B 屬性的人,以及都沒有的人。但是,如果我們查看變量(例如,使用卡方檢驗),它們顯然是相關的:
tab # B # A yes no # yes 4 0 # no 0 4 chisq.test(tab) # X-squared = 4.5, df = 1, p-value = 0.03389
我發現我不知道如何用分類數據構建一個類似於上面連續數據的例子。是否甚至可以在沒有相關變量的情況下在純分類數據中擁有集群?如果變量有兩個以上的水平,或者你有更多的變量怎麼辦?如果觀察的聚類確實需要變量之間的關係,反之亦然,這是否意味著當您只有分類數據時(即,您是否應該只分析變量)進行聚類並不值得?
*更新:*我在最初的問題中遺漏了很多內容,因為我只想專注於這樣一個想法,即可以創建一個簡單的示例,即使對於很大程度上不熟悉聚類分析的人來說也能立即直觀。但是,我認識到很多聚類取決於距離和算法等的選擇。如果我指定更多可能會有所幫助。
我認識到 Pearson 的相關性實際上只適用於連續數據。對於分類數據,我們可以考慮使用卡方檢驗(對於雙向列聯表)或對數線性模型(對於多路列聯表)來評估分類變量的獨立性。
對於算法,我們可以想像使用 k-medoids / PAM,它可以應用於連續情況和分類數據。(請注意,連續示例背後的部分意圖是任何合理的聚類算法都應該能夠檢測到這些聚類,如果不能,則應該可以構建更極端的示例。)
關於距離的概念,我假設歐幾里得是連續的例子,因為它對於一個天真的觀眾來說是最基本的。我認為與分類數據類似的距離(因為它是最直觀的)將是簡單的匹配。但是,如果這會導致解決方案或只是有趣的討論,我願意討論其他距離。
考慮具有不相關尺度變量的清晰集群情況 - 例如問題中的右上角圖片。並對其數據進行分類。
我們將變量 X 和 Y 的尺度範圍細分為 3 個箱,現在我們將其視為分類標籤。此外,我們將聲明它們是名義的,而不是序數的,因為所問的問題隱含地主要是關於定性數據。點的大小是頻率交叉表單元格中的頻率;同一單元格中的所有案例都被認為是相同的。
直觀且最普遍地,“簇”被定義為由數據“空間”中的稀疏區域分隔的數據點凝塊。它最初是規模數據,在分類數據的交叉表中保持相同的印象。X 和 Y 現在是分類的,但它們看起來仍然不相關:卡方關聯非常接近於零。並且集群在那裡。
但回想一下,我們正在處理表中順序是任意的名義類別。我們可以根據需要重新排序整行和/或列,而不會影響觀察到的卡方值。重新排序…
…遇見剛剛消失的星團。四個單元,a1、a3、c1 和 c3,可以合併在一個集群中。所以不,我們真的在分類數據中沒有任何集群。
單元格 a1 和 c3(或類似的 a3 和 c1)的情況完全不同:它們不具有相同的屬性。為了在我們的數據中誘導集群——a1 和 c3 形成集群——我們必須通過從數據集中刪除這些案例,在很大程度上清空混淆單元格 a3 和 c1。
現在集群確實存在。但與此同時,我們失去了不相關性。表中顯示的對角線結構表明卡方統計量遠離零。
可憐。讓我們嘗試同時保持不相關性和或多或少清晰的集群。例如,我們可以決定僅將單元格 a3 充分清空,然後將 a1+c1 視為與集群 c3 相對的集群:
那次操作並沒有讓卡方離零有任何距離……
[Indeed, table such as for example 6 6 1 6 6 1 1 1 0 retains about the same very low chi-square association after dividing 2nd column by 3 and multiplying 2nd row by 3, which gives 6 2 1 18 6 3 1 1/3 0 Cell (1,2) got thrice lower frequency. We had, however, to upheave cell (2,1) frequency thrice, to keep Chi-sq almost as before.]
…但是集群的情況很混亂。聚類 a1+c1 包含部分相同、部分不同的案例。集群的同質性相對較低,這本身並不排除數據集中具有清晰的集群結構。然而,我們的分類數據的問題是集群 a1+c1 絕不比集群 c1+c3 好,它的對稱類似物。這意味著集群解決方案是不穩定的——它將取決於數據集中的案例順序。一個不穩定的解決方案,即使它是相對“清晰的”,也是一個糟糕的解決方案,不可靠。
克服該問題並使解決方案既清晰又穩定的唯一方法是通過將單元格 c3 與單元格 c1 的數據移動到單元格 b3(或 b2)來解開單元格 c3 與單元格 c1 的關聯。
所以我們有明確的集群 a1+c1 vs b3。但是看,這裡再次出現了對角線模式 - 表格的卡方邊界高於零。
結論。不可能同時擁有兩個卡方不相關的名義變量和良好的數據案例集群。清晰穩定的集群意味著誘導變量關聯。
同樣清楚的是,如果存在關聯——即對角線模式存在或可通過重新排序實現——則必須存在集群。這是因為分類數據的性質(“全有或全無”)不允許半色調和邊界條件,因此 OP 問題中左下角的圖片不能出現分類、名義數據。
我推測,隨著我們得到越來越多的名義變量(而不是只有兩個),它們是雙變量卡方不相關的,我們越來越接近擁有集群的可能性。但是零多元卡方,我預計仍然會與集群不兼容。這還必須展示(不是我,也不是這次)。
最後,對我部分支持的@Bey(又名 user75138)答案發表評論。我已經對此發表了評論,同意一個人必須首先決定距離度量和關聯度量,然後他才能提出“變量關聯是否獨立於案例集群?”的問題。這是因為不存在通用的關聯度量,也沒有通用的集群統計定義。我還要補充一點,他還必須決定聚類技術。各種聚類方法不同地定義了它們所追求的“聚類”。因此,整個陳述可能是正確的。
也就是說,這種格言的弱點在於它太寬泛了。人們應該嘗試具體說明,對於名義數據,距離度量/關聯度量/聚類方法的選擇是否以及在何處打開了協調不相關性與聚類性的空間。他會特別記住,並非所有二進制數據的許多鄰近係數都對標稱數據有意義,因為對於標稱數據,“兩種情況都缺乏此屬性”永遠不能成為它們相似性的基礎。
更新,報告我的模擬結果。
重複地,隨機生成 2 或 3 變量名義數據,變量中的類別數從 3 到 5 不等,總樣本量從 300 到 600 不等。生成的數據集(Cramer’s V 幾乎從不高於 $ .1 $ )。此外,對於 3 變量數據,3 路卡方關聯(主效應多項式模型)、Pearson 和對數似然較低且從不顯著。
使用兩種聚類分析方法對每個生成的數據集中的案例進行聚類 - 層次聚類(完整方法,Dice相似性度量)和兩步聚類(基於對數似然距離)。然後通過一些內部聚類標準(輪廓統計,點雙序列)檢查每個分析的一系列聚類解決方案(根據解決方案中的聚類數量而變化) $ r $ , AIC & BIC) 尋找一個相對“好”的解決方案,表明存在清晰的集群。然後通過在數據集中排列案例順序並在其上重新進行聚類來測試一個喜歡的解決方案的穩定性。
調查結果通常支持上面答案中顯示的推理。從來沒有非常清晰的集群(例如,如果卡方關聯很強,可能會發生)。並且不同聚類標準的結果經常相互矛盾(當聚類真的很清楚時,這不太可能發生)。
有時,層次聚類會提供一個不錯的 k 聚類解決方案,如通過聚類標準圖觀察到的那樣;但是,測試它的穩定性將無法證明它是穩定的。例如,這個 3 變量
4x4x3
數據V1 V2 V3 Count 1 1 1 21 2 24 3 1 2 1 22 2 26 3 1 3 1 1 2 1 3 1 4 1 17 2 20 3 1 2 1 1 10 2 12 3 1 2 1 10 2 12 3 1 3 1 1 2 1 3 1 4 1 8 2 9 3 1 3 1 1 24 2 28 3 1 2 1 25 2 30 3 1 3 1 1 2 1 3 1 4 1 19 2 23 3 1 4 1 1 24 2 28 3 1 2 1 26 2 30 3 1 3 1 1 2 1 3 1 4 1 19 2 23 3 1
當通過完整的鏈接層次方法聚類時,骰子相似性似乎被分成 - 相當合理 - 成 9 個聚類 - 在這種情況下,三個內部有效性判斷者一致:
但該解決方案並不穩定,從原始解決方案的混淆矩陣與置換(案例重新排序)解決方案的不完全稀疏性可以看出:
如果解決方案是穩定的(因為它可能是我們連續的數據),我們會選擇 9 集群解決方案作為足夠有說服力的解決方案。
基於對數似然距離(與 Dice 相似度相反)的聚類可以提供穩定且“不錯”(內部相當有效)的解決方案。但那是因為距離,至少在 SPSS 的 TwoStep 集群中,鼓勵和培養人口多的集群而忽略人口少的集群。它不要求內部頻率非常低的集群內部密集(這似乎是 TwoStep 集群分析的“策略”,它是專門為大數據設計的,並且給出的集群很少;所以小集群被視為異常值) . 例如,這些 2 變量數據
將由 TwoStep 穩定地組合成 5 個集群,並且根據一些集群標準判斷,5 集群解決方案一點也不差。因為這四個人口密集的集群內部非常密集(實際上,所有案例都相同),只有一個包含少數案例的第五個集群是極度熵的。實際上很明顯的是 12 集群解決方案,而不是 5 集群,但 12 是頻率表中的單元總數,作為“集群解決方案”,這是微不足道的和無趣的。