Variance

為了進行後續分析,PCA 是否需要捕獲任何所需的方差量?

  • January 14, 2015

我有一個包含 11 個變量的數據集,並且進行了 PCA(正交)以減少數據。根據我對主題和碎石圖(見下文)的了解,決定要保留的組件數量很明顯,兩個主要組件 (PC) 足以解釋數據,而其餘組件的信息量較少。

在此處輸入圖像描述

具有並行分析的碎石圖:觀察到的特徵值(綠色)和基於 100 次模擬的模擬特徵值(紅色)。碎石圖建議使用 3 台 PC,而並行測試僅建議使用前兩台 PC。

在此處輸入圖像描述

如您所見,前兩台 PC 只能捕獲 48%的方差。

繪製由前 2 台 PC 在第一個平面上進行的觀察,揭示了使用層次凝聚聚類 (HAC) 和 K-means 聚類的三個不同集群。事實證明,這 3 個集群與所討論的問題非常相關,並且也與其他發現一致。因此,除了僅捕獲了 48% 的方差之外,其他一切都非常好。

我的兩位審稿人中的一位說:不能過多地依賴這些發現,因為只有 48% 的方差可以解釋,而且比要求的要少。

問題PCA應該捕獲多少方差才有效

?它不依賴於所使用的領域知識和方法嗎?任何人都可以僅根據解釋方差的值來判斷整個分析的優點嗎?

筆記

  • 數據是通過稱為實時定量聚合酶鏈反應 (RT-qPCR) 的分子生物學中非常敏感的方法測量的 11 個基因變量。
  • 使用 R 進行分析。
  • 非常感謝數據分析師根據他們在微陣列分析、化學計量學、光譜分析等領域處理實際問題的個人經驗提供的答案。
  • 請考慮盡可能用參考文獻來支持您的回答。

關於您的特定問題:

PCA 應該捕獲多少方差才有效?

不,沒有(據我所知)。我堅信沒有可以使用的單一值;捕獲的方差百分比沒有神奇的閾值。Cangelosi 和 Goriely 的文章:主成分分析中的成分保留以及對 cDNA 微陣列數據的應用給出了一個相當不錯的概述,對六種標準經驗法則進行了很好的概述,以檢測研究中的成分數量。(碎石圖、解釋的總方差比例、平均特徵值規則、對數特徵值圖等)作為*經驗法則,*我不會強烈依賴它們中的任何一個。

它不依賴於所使用的領域知識和方法嗎?

理想情況下,它應該是依賴的,但你需要小心你的措辭和你的意思。

例如:在聲學中有 Just Noticeable Difference ( JND ) 的概念。假設您正在分析聲學樣本,並且特定 PC 的物理尺度變化遠低於該 JND 閾值。沒有人會爭辯說,對於 Acoustics 應用程序,您應該包含那台 PC。您將分析聽不見的噪音。包含這台 PC 可能有一些原因,但這些原因需要呈現,而不是相反。它們的概念是否類似於用於 RT-qPCR 分析的 JND?

同樣,如果一個組件看起來像 9 階勒讓德多項式,並且您有強有力的證據表明您的樣本由單個高斯凸塊組成,那麼您有充分的理由相信您再次對不相關的變化進行建模。這些正交變化模式顯示了什麼?例如,在您的情況下,第三台 PC 有什麼“錯誤”?

您說“這三個集群與所討論的問題非常相關”這一事實並不是一個強有力的論據。您可能會進行簡單的數據挖掘(這是一件壞事)。還有其他技術,例如。Isomaps和local -linear embedding也很酷,為什麼不使用它們呢?您為什麼特別選擇 PCA?

你的發現與其他發現的一致性更為重要,特別是如果這些發現被認為是公認的。深入挖掘這一點。嘗試查看您的結果是否與其他研究的 PCA 發現一致。

任何人都可以僅根據解釋方差的值來判斷整個分析的優點嗎?

一般來說,不應該這樣做。不要認為您的審稿人是混蛋或類似的東西;在沒有合理理由的情況下保留 48% 確實是一個很小的比例。

引用自:https://stats.stackexchange.com/questions/133451

comments powered by Disqus