Variance

為什麼 RNA-seq 數據的對數轉換會減少 PCA 中解釋方差的數量?

  • December 20, 2017

我在具有 2k 行和 36k 列的數據集上運行 PCA。我注意到,當我對數據進行對數轉換時,我需要在 PCA 期間要求更多的主成分,以實現相同數量的解釋方差(見附圖)。

造成這種情況的根本原因是什麼?我有一種天真的直覺,即對數轉換“壓縮”數據,因此不同主成分的解釋方差量正在“同質化”。對此有嚴格的解釋還是我犯了錯誤?

諾洛 日誌10

根據您的數據集的大小,我懷疑您正在使用單細胞 RNA-seq 數據。

如果是這樣,我可以確認您的觀察:使用 scRNA-seq 數據,對數變換後 PCA 解釋的方差通常比之前低得多。這是您與Tasic 等人的發現的複制。我手頭的2016 年數據集:

[在此處輸入圖像描述

這裡我用 $ \log(x+1) $ 因為精確的零。請注意,對數轉換數據產生的解釋方差與標準化數據大致相似(當每個變量居中並縮放以具有單位方差時)。

原因是不同的變量(基因)具有非常不同的方差。RNA-seq 數據最終是 RNA 分子的計數,方差隨均值單調增長(想想泊松分佈)。因此,高表達的基因將具有高方差,而幾乎沒有表達或檢測到的基因將具有幾乎為零的方差:

[在此處輸入圖像描述

在沒有任何轉換的情況下,只有一個基因可以解釋超過 40% 的方差(即其方差高於總方差的 40%)。在這個數據集中,恰好是這個基因:https : //en.wikipedia.org/wiki/Neuropeptide_Y,它在某些細胞中高度表達(RPKM 值超過 100000),而在其他一些細胞中表達為零。當你對原始數據做 PCA 時,PC1 基本上會與這個單一基因重合。

這類似於PCA 關於相關性或協方差的公認答案中發生的情況?

請注意,關於協方差的 PCA 由run800m和支配javelin:PC1 幾乎等於run800m(並解釋了 82% 的方差),而 PC2 幾乎等於javelin(它們一起解釋了 97%)。關於相關性的 PCA 提供的信息要多得多,並揭示了數據中的一些結構和變量之間的關係(但請注意,解釋的方差下降到 64% 和 71%)。

更新

在評論中,@An-old-man-in-the-sea 提出了方差穩定轉換的問題。RNA-seq 計數通常用負二項分佈建模,具有以下均值-方差關係:$$ V(\mu) = \mu + \frac{1}{r}\mu^2. $$

如果我們忽略第一項(這在假設高表達基因攜帶 PCA 的最多信息的情況下是有道理的),那麼剩餘的均值 - 方差關係變為二次方,與對數正態分佈一致,並且具有對數作為方差穩定變換:$$ \int\frac{1}{\sqrt{\mu^2}}d\mu=\log(\mu). $$

或者,小權力 $ \mu^\alpha $ 與例如 $ \alpha\approx 0.1 $ 左右也可能是有意義的,並且對於 $ V(\mu)=\mu^{2-2\alpha} $ ,所以介於線性和二次均值-方差關係之間。

另一種選擇是使用$$ \int\frac{1}{\sqrt{\mu+\frac{1}{r}\mu^2}}d\mu=\operatorname{arsinh}\Big(\frac{x}{r}\Big)=\log\Big(\sqrt{\frac{\mu}{r}}+\sqrt{\frac{\mu^2}{r^2}+1}\Big), $$可能與 Anscombe 的修正為$$ \operatorname{arsinh}\Big(\frac{x+3/8}{r-3/4}\Big). $$顯然對於大 $ \mu $ 所有這些公式都簡化為 $ \log(x) $ .

請參閱Harrison,2015,Anscombe 的 1948 年負二項式分佈的方差穩定轉換非常適合 RNA-Seq 表達數據Anscombe,1948 年,泊松、二項式和負二項式數據的轉換

引用自:https://stats.stackexchange.com/questions/319794

comments powered by Disqus