Pca

序數或二進制數據是否有因子分析或 PCA?

  • May 30, 2016

我已經完成了主成分分析(PCA)、探索性因素分析(EFA)和驗證性因素分析(CFA),用李克特量表(5級反應:無、一點、一些、..)處理數據作為連續多變的。然後,使用 Lavaan,我重複了 CFA 將變量定義為分類。

我想知道當數據本質上是序數時,哪些類型的分析適合併且等同於 PCA 和 EFA 。而當二進制.

我也很感激對可以輕鬆實現此類分析的特定軟件包或軟件的建議。

傳統(線性)PCA 和因子分析需要尺度級別(區間或比率)數據。通常,李克特類型的評級數據被假定為規模級別,因為此類數據更易於分析。而且這個決定有時在統計上是有根據的,特別是當有序類別的數量大於 5 或 6 時。(儘管純粹從邏輯上講,數據類型的問題和比例級別的數量是不同的。)

但是,如果您更願意將多分李克特量表視為序數呢?或者你有二分法數據?是否可以為他們進行探索性因素分析或 PCA?

目前有三種主要方法可以對分類序數或二元變量執行 FA(包括作為其特例的 PCA)(另請閱讀關於二進制數據情況的說明,以及關於可能使用序數尺度做什麼的考慮)

  1. 最佳縮放方法(一系列應用程序)。也稱為分類 PCA (CatPCA) 或非線性 FA. 在 CatPCA 中,序數變量在目標下被單調變換(“量化”)成它們的“基礎”區間版本,以最大化從這些區間數據中提取的選定數量的主成分所解釋的方差。這使得該方法公開目標驅動(而不是理論驅動)並且重要的是提前確定主成分的數量。如果需要真正的 FA 而不是 PCA,則可以自然地對從 CatPCA 輸出的那些轉換變量執行通常的線性 FA。對於二元變量,CatPCA(很遺憾?)的行為方式與通常的 PCA 相同,也就是說,就好像它們是連續變量一樣。CatPCA 也接受名義變量和變量類型的任何混合(很好)。
  2. 推斷的基礎變量方法。也稱為 PCA/FA,對弦(用於二進制數據)或多(用於序數數據)相關性進行。對於每個清單變量,假設基礎(然後分箱)連續變量為正態分佈。然後應用經典FA來分析上述相關性。該方法很容易允許混合區間、序數、二進制數據。該方法的一個缺點是 - 在推斷相關性時 - 它沒有關於基礎變量的多元分佈的線索 - 最多可以“構想”二元分佈,因此不以完整信息為基礎。
  3. 項目反應理論(IRT)方法。有時也稱為邏輯 FA潛在特徵分析。應用了一個非常接近二進制 logit(對於二進制數據)或比例對數機率(對於序數數據)模型的模型。該算法與相關矩陣的分解無關,因此它與傳統的 FA 有點不同,但它仍然是一個真正的分類 FA。“判別參數”與 FA 的負載密切相關,但“困難”取代了 FA 的“唯一性”概念。隨著因子數量的增加,IRT 擬合確定性迅速降低,這是這種方法的一個問題。IRT 可以以自己的方式擴展,以合併混合區間+二進制+序數和可能的名義變量。

方法 (2) 和 (3) 中的因子分數比經典 FA 或方法 (1) 中的因子分數更難估計。但是,確實存在幾種方法(預期或最大後驗方法、最大似然方法等)。

三種方法中的因子分析模型假設與傳統 FA 中的基本相同。方法(1)可用於 R、SPSS、SAS(在我看來)。方法 (2) 和 (3) 主要在專門的潛在變量包中實現 - Mplus、LISREL、EQS。

  1. 多項式方法。那還沒有完全開發。主成分可以建模為變量的多項式組合(使用多項式是一種流行的方法來模擬序數回歸量的非線性效應。)。此外,觀察到的類別反過來可以建模為潛在因素的多項式組合的離散表現。
  2. 存在一個蓬勃發展的非線性降維技術領域;其中一些可以應用或採用來處理分類數據(尤其是二進制數據或在二進制化為高維稀疏數據集之後)。
  3. 對等級相關性或其他適用於分類數據的關聯(Spearman/Kendall/Somer’s 等)執行經典(線性)FA/PCA。對於序數數據,這純粹是啟發式方法,缺乏理論依據根本不推薦。對於二進制數據,Spearman rho 和 Kendall tau-b 相關性和 Phi 關聯性都等於 Pearson r 相關性,因此使用它們只不過是對二進制數據執行通常的線性 FA/PCA(這裡有一些危險)。也有可能(儘管並非毫無疑問)對 重新調整其當前幅度界限。

也看看這個這個這個這個這個這個這個這個

引用自:https://stats.stackexchange.com/questions/215404

comments powered by Disqus