Pca
線性獨立與統計獨立(PCA 和 ICA)
我正在閱讀這篇關於將 ICA 應用於基因表達數據的有趣論文。
作者寫道:
[T] 這裡沒有要求 PCA 組件在統計上是獨立的。
這是真的,但是 PC 是正交的,不是嗎?
對於統計獨立性與正交性或線性獨立性之間的關係,我有點模糊。
值得注意的是,雖然 ICA 還提供了數據矩陣的線性分解,但統計獨立性的要求意味著數據協方差矩陣以非線性方式去相關,而 PCA 的去相關是線性執行的。
我不明白。統計獨立性如何導致缺乏線性?
問題:ICA 中組件的統計獨立性與 PCA 中組件的線性獨立性有何關係?
這很可能是一些舊問題的重複,但我還是會簡要回答。
對於非技術性的解釋,我發現維基百科關於相關性和依賴性的文章中的這個數字很有幫助:
每個散點圖上方的數字顯示 X 和 Y 之間的相關係數。查看最後一行:在每個散點圖上,相關性為零,即 X 和 Y 是“線性獨立的”。然而它們顯然 不是統計獨立的:如果你知道 X 的值,你可以縮小 Y 的可能值。如果 X 和 Y 是獨立的,這意味著知道 X 並不能告訴你關於 Y的任何信息。
ICA的目的是試圖找到獨立的組件。在 PCA 中,您只會得到不相關(“正交”)的組件;它們之間的相關性為零,但它們很可能是統計相關的。