如何解釋時間序列數據的 PCA?
我試圖了解 PCA 在最近一篇題為“使用集群計算大規模映射大腦活動”的期刊文章中的使用,Freeman 等人,2014 年(實驗室網站上提供免費 pdf文件)。他們在時間序列數據上使用 PCA,並使用 PCA 權重創建大腦地圖。
數據是試驗平均成像數據,存儲為矩陣(稱為在論文中)與體素(或大腦中的成像位置)時間點(單次刺激大腦的長度)。
他們使用 SVD 導致
(表示矩陣的轉置)。 作者指出
主成分(列) 是長度向量,和分數(的列) 是長度向量(體素數),描述每個體素在對應分量給定方向上的投影,形成體積上的投影,即全腦圖。
所以 PC 是長度向量. 我如何解釋 PCA 教程中通常表達的“第一主成分解釋了最大的方差”?我們從許多高度相關的時間序列矩陣開始——單個 PC 時間序列如何解釋原始矩陣中的方差?我理解整個“高斯點雲到最可變軸的旋轉”的事情,但我不確定這與時間序列有何關係。作者在陳述時所說的方向是什麼意思:“分數() 是長度向量(體素數),描述每個體素在相應分量給出的方向上的投影”?主分量時間過程怎麼會有方向?
要查看從主成分 1 和 2 的線性組合以及相關腦圖得到的時間序列示例,請轉到以下鏈接並將鼠標懸停在 XY 圖中的點上。
我的第二個問題與他們使用主成分分數創建的(狀態空間)軌蹟有關。
這些是通過獲取前 2 個分數(在我上面概述的“光學”示例的情況下)創建的,並將單個試驗(用於創建上面描述的試驗平均矩陣)投影到主要子空間中,公式如下:
正如您從鏈接的電影中看到的那樣,狀態空間中的每條軌跡都代表了整個大腦的活動。
與關聯前 2 台 PC 分數的 XY 圖的圖相比,有人可以提供關於狀態空間電影的每個“幀”含義的直覺。在給定的“框架”上,實驗的 1 次試驗處於 XY 狀態空間中的 1 個位置,而另一個試驗處於另一個位置,這意味著什麼?電影中的 XY 繪圖位置與我的問題第一部分中提到的鏈接圖中的主成分軌蹟有何關係?
Q1:PC時間序列和“最大方差”有什麼聯繫?
他們正在分析的數據是每個數據點神經元,所以我們可以把它想像成中的數據點維空間. 它是“點雲”,因此執行 PCA 等於找到最大方差的方向,正如您所知道的。我更喜歡將這些方向(它們是協方差矩陣的特徵向量)稱為“主軸”,並將數據在這些方向上的投影稱為“主成分”。
在分析時間序列時,對這張圖片的唯一補充是點是有意義的排序或編號的(從到),而不是簡單的點的無序集合。這意味著如果我們取一個單個神經元的放電率(這是圖中的一個坐標)),那麼它的值可以繪製為時間的函數。同樣,如果我們拿一台 PC(這是從在某行),那麼它也有值並且可以繪製為時間的函數。因此,如果原始特徵是時間序列,那麼 PC 也是時間序列。
我同意@Nestor 的上述解釋:每個原始特徵都可以看作是 PC 的線性組合,並且由於 PC 彼此之間不相關,因此可以將它們視為原始特徵分解成的基函數。這有點像傅立葉分析,但我們不是採用正弦和余弦的固定基,而是為這個特定數據集找到“最合適”的基,從某種意義上說,第一台 PC 佔最大方差等。
這裡的“考慮最大方差”意味著如果您只採用一個基函數(時間序列)並嘗試用它來近似所有特徵,那麼第一台 PC 會做得最好。所以這裡的基本直覺是第一台 PC 是一個基函數時間序列,它最適合所有可用的時間序列,等等。
為什麼弗里曼等人的這段話。這麼混亂?
弗里曼等人。分析數據矩陣變量(即神經元)在行(!)中,而不是在列中。請注意,它們減去行均值,這是有道理的,因為變量通常在 PCA 之前居中。然後他們執行 SVD:
使用我在上面提倡的術語,是主軸(方向在) 和列是主要成分(時間序列的長度)。 你從弗里曼等人引用的句子。確實很混亂:
主成分(列) 是長度向量,和分數(的列) 是長度向量(體素數),描述每個體素在對應分量給定方向上的投影,形成體積上的投影,即全腦圖。
首先,列不是 PC,而是按單位標準縮放的 PC。二、欄目不是分數,因為“分數”通常表示 PC。第三,“相應組件給出的方向”是一個神秘的概念。我認為他們在這裡翻轉圖片並建議考慮點在維空間,因此現在每個神經元都是一個數據點(而不是變量)。從概念上講,這聽起來像是一個巨大的變化,但在數學上幾乎沒有區別,唯一的變化是主軸和 [unit-norm] 主成分改變了位置。在這種情況下,我的電腦從上面(-long time series) 將成為主軸,即方向和可以被認為是這些方向上的歸一化投影(歸一化分數?)。
**我覺得這很令人困惑,所以我建議忽略他們對單詞的選擇,而只看公式。**從這一點開始,我將繼續使用我喜歡的術語,而不是 Freeman 等人的方式。使用它們。
Q2:狀態空間軌跡是什麼?
他們獲取單次試驗數據並將其投影到前兩個主軸上,即前兩列)。如果您使用原始數據進行操作,你會得到兩個第一主成分。同樣,在一個主軸上的投影是一個主成分,即- 長時間序列。
如果你用一些單次試驗數據來做,你又得到兩個- 長時間序列。在電影中,每一行對應這樣的投影:x坐標根據PC1演變,y坐標根據PC2演變。這就是所謂的“狀態空間”:PC1 針對 PC2 繪製。時間隨著圓點的移動而流逝。
電影中的每一行都是通過不同的單次試驗獲得的.