Pca

PCA 是否適用於布爾(二進制)數據類型?

  • July 2, 2015

我想降低高階系統的維數,並在最好的二維或一維場上捕獲大部分協方差。我知道這可以通過主成分分析來完成,並且我在許多場景中都使用過 PCA。但是,我從來沒有將它與布爾數據類型一起使用,我想知道用這個集合做 PCA 是否有意義。例如,假設我有定性或描述性指標,如果該指標對該維度有效,則分配“1”,否則分配“0”(二進制數據)。例如,假設您正在嘗試比較白雪公主中的七個小矮人。我們有:

Doc、Dopey、Bashful、Grumpy、Sneezy、Sleepy 和 Happy,你想根據質量來排列它們,並且這樣做是:

例如,Bashful 是乳糖不耐症,不在 A 榮譽榜上。這是一個純粹的假設矩陣,我的真實矩陣將有更多的描述性列。我的問題是,在這個矩陣上做 PCA 作為尋找個體之間相似性的手段是否仍然合適?

我想向您推荐一種相對較新的技術,用於從分類變量數據(包括二進制數​​據)中自動提取結構。該方法被南加州大學的 Greg van Steeg 稱為 CorEx。這個想法是使用基於熵度量的總相關的概念。它之所以吸引人,是因為它簡單且無需調整大量超參數。

關於分層表示的論文(最新的,建立在以前的措施之上)。 http://arxiv.org/pdf/1410.7404.pdf

引用自:https://stats.stackexchange.com/questions/159705

comments powered by Disqus