Regression

進行 CCA 與使用 PCA 構建因變量然後進行回歸

  • August 25, 2016

給定兩個多維數據集,和**,有些人通過使用主成分分析**(PCA)構建代理因變量來執行多變量分析。也就是說,在設置,沿第一個組件取分數,並對這些分數進行多元回歸:. (我的問題基於這篇文章)。

對我來說,這看起來像是兩個數據集之間某種摻假形式的**典型相關分析(CCA)。**但是沒有這方面的背景,我不能指望它。所以我的問題是,與 CCA 相比,PCA+回歸分析的優缺點是什麼?

直覺說 CCA 在這裡應該更合理,因為(我相信)它建立規範變量不是為了盲目地最大化解釋方差,而是已經達到最大化相關性的最終目的心裡。我對嗎?


參考文獻:Mei et al., 2010, 代謝綜合徵成分遺傳關聯研究的基於主成分的多元回歸

這是一個很好的問題,但從它看來,您知道 PCA 和 CCA 是一筆交易,因此您可以自己回答。你也是:

[CCA] 構建規範變量不是為了盲目地 [wrt X 的存在] 最大化解釋方差 [in Y],而是已經考慮到最大化與 X 的相關性的最終目的。

千真萬確。第一個 Y 的 PC 與 X 集的相關性幾乎總是弱於第一個 Y 的 CV 與它的相關性。從比較 PCA 和 CCA 動作的圖片中可以明顯看出這一點。

您設想的 PCA + 回歸是兩步的,最初是“無監督”(如您所說的“盲目”)策略,而 CCA 是一步“監督”策略。兩者都是有效的 - 每個都在自己的調查環境中!

在集合 Y 的 PCA 中獲得的第一個主成分 (PC1)是 Y 變量的線性組合。從集合Y 和 X 的 CCA 中的集合 Y中提取的第一規範變量 (CV1)也是 Y 變量的線性組合。但它們是不同的。(瀏覽鏈接的圖片,還要注意 CCA 更接近 - 實際上是一種形式 - 回歸而不是 PCA。)

PC1表示集合Y。它是集合 Y 中的線性總結和“副手”,用於稍後面對外部世界的關係(例如在隨後的 PC1 通過變量 X 回歸時)。

CV1表示集合Y 的集合X。它是X屬於Y的線性圖像,Y中的“內部人”。YX關係已經存在:CCA是一個多元回歸。

假設我有一個兒童樣本在學校焦慮問卷(例如菲利普斯測試)上的結果 - Y 項目,以及他們在社會適應問卷上的結果 - X 項目。我想建立兩個集合之間的關係。X 內部和 Y 內部的項目相互關聯,但它們完全不同,我不喜歡在任何一組中直接將項目分數總結為單個分數的想法,所以我選擇保持多元。

如果我對 Y 進行PCA,提取 PC1,然後回歸 X 項,這意味著什麼?這意味著我尊重焦慮問卷(Y項目)作為現象的主權(封閉)領域,它可以表達自己。通過發布代表整個集合 Y 的最佳加權項目總和(考慮最大方差)來表達 - 它的一般因素/樞軸/趨勢,“主流學校焦慮症”,PC1。在表徵形成之前,我才轉向下一個問題,它與社會適應有何關係,我將在回歸中檢查這個問題。

如果我做CCAY vs X,提取第一對規範變量 - 每個集合中的一個 - 具有最大相關性,這是什麼意思?這意味著我懷疑焦慮和適應之間(背後)的共同因素使它們相互關聯。但是,我沒有理由或理由通過 PCA 或組合集“X 變量 + Y 變量”的因子分析來提取或建模該因子(因為,例如,我認為焦慮和適應在概念上是兩個完全不同的領域,或者因為這兩個問卷有非常不同的尺度(單位)或不同形狀的分佈,我害怕“合併”,或者其中的項目數量非常不同)。我會滿足於集合之間的規範相關性。或者我可能不會假設這些集合背後有任何“共同因素”,並簡單地認為“X影響Y”。由於 Y 是多元的,因此效果是多維的,我要求的是一階最強的效果。它由第一個典型相關給出,對應的預測變量是集合 Y 的 CV1。CV1 是從 Y 中撈出來的,Y 不是selbständig它的生產者。

引用自:https://stats.stackexchange.com/questions/231653

comments powered by Disqus