Time-Series

PCA 對自相關數據做了什麼?

  • November 11, 2014

僅僅因為某位記者提出了一個關於自相關計算方法的有趣問題,我開始玩弄它,幾乎對時間序列和自相關一無所知。

記者整理了他的資料(一個時間序列的數據點)每個都移動一個時間滯後,因此他有一個矩陣數據(據我了解)其中第一行是原始數據,第二行是數據移位時間單位,下一行由另一個,依此類推。我還通過將末端粘在尾部來實現這一點,因此製作了“圓形”數據集。

然後,只是為了看看可能會產生什麼,我計算了相關矩陣,並從中計算出主成分。令人驚訝的是,我得到了頻率分解的圖像,並且(再次使用其他數據)一個頻率,比如說在數據在第一個主成分中,四個週期的數據在第二個主成分中,依此類推(我得到了具有特徵值的“相關”PC)。首先我認為這取決於輸入數據,但現在我假設它是系統地通過具有循環移位的數據集的特殊構造(也稱為“Toeplitz”矩陣)來系統化的。將 PC 解決方案旋轉到 varimax 或其他旋轉標准給出了稍微不同且可能有趣的結果,但總的來說似乎提供了這樣的頻率分解。

這是我製作的圖片的鏈接-點數據集;這些曲線只是由因子矩陣的載荷製成:一條曲線是一個因子的載荷。第一個 PC1 的曲線應該顯示出最高的振幅(大概是因為它承受最高的負載平方和)

問題:

  • Q1:這是設計的功能嗎?(具有此類數據集的 PCA)
  • 問題 2:這種方法是否確實可用於嚴肅的頻率/波長分析方法?

[更新]這裡是數據集(希望它可以為你複製)

-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4
-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5
-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3
0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1
2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0
4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2
6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4
5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6
3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5
1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3
1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1
0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1
-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0
-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2
-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3
0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1
3,5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0
5,7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3
7,6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5
6,7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7
7,5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6
5,4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7
4,3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5
3,2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4
2,3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3
3,5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2
5,4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3
4,3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5
3,2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4
2,3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3
3,4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2
4,-5,-3,-1,0,2,4,6,5,3,1,1,0,-2,-3,-1,0,3,5,7,6,7,5,4,3,2,3,5,4,3,2,3

讓我將我之前的評論轉換為答案。

您認為數據矩陣中的行是變量還是樣本?我會假設它們是樣本:即你有不同的時間序列(樣本)。

那麼,如果所有行是相同的,但只是循環移位每個位置,然後由所有行對之間的點積組成的數據的 Gram 矩陣將具有 Toeplitz 結構:靠近對角線的高值逐漸減小到遠離它的零值。Toeplitz 矩陣具有連續的傅里葉模式作為它們的特徵向量(並且 Gram 矩陣的特徵向量是主成分,直到縮放),所以你的 Q1 來說是肯定的:你得到頻率增加的正弦波作為 PC 也就不足為奇了。

不知道它是否有用(Q2)。以我的經驗,它往往看起來像一個令人討厭的神器。即人們有一些數據,從 PCA 中得到類似於傅立葉模式的東西,並開始想知道它們可能意味著什麼,而它們僅僅是由於原始時間序列中的一些時間變化。

引用自:https://stats.stackexchange.com/questions/123516

comments powered by Disqus