Time-Series

如何在時間序列中正確使用 Pearson 相關性

  • January 12, 2015

我有 2 個時間序列(都是平滑的),我想相互關聯以查看它們的相關性。

我打算使用皮爾遜相關係數。這合適嗎?

我的第二個問題是我可以隨意選擇對 2 個時間序列進行採樣。即我可以選擇我將使用多少個數據點。這會影響輸出的相關係數嗎?我需要說明這一點嗎?

出於說明目的

option(i)

[1,    4,    7,    10] & [6,    9,    6,    9,    6]

option(ii)

[1,2,3,4,5,6,7,8,9,10] & [6,7,8,9,8,7,6,7,8,9,8,7,6]  

皮爾遜相關性用於查看序列之間的相關性……但作為時間序列,相關性是在不同的滯後時間 -互相關函數中查看的。

互相關受系列內依賴性的影響,因此在許多情況下,應首先消除系列內依賴性。因此,要使用這種相關性,而不是平滑序列,實際上更常見(因為它很有意義)查看殘差之間的依賴關係——在為變量找到合適的模型後剩下的粗糙部分。

您可能希望從時間序列模型的一些基本資源開始,然後再深入研究是否可以解釋跨(可能)非平穩平滑序列的 Pearson 相關性。

特別是,您可能希望在此處研究這種現象。[在時間序列中,這有時被稱為虛假相關性,儘管關於虛假相關性的 Wikipedia 文章對該術語的使用採取了狹隘的觀點,似乎排除了該術語的這種使用。通過搜索虛假回歸,您可能會發現更多關於此處討論的問題。]

[編輯——維基百科的格局不斷變化;上段。可能應該修改以反映現在的情況。]

例如看一些討論

  1. http://www.math.ku.dk/~sjo/papers/LisbonPaper.pdf (Yule 的開場白,在 1925 年發表但次年發表的一篇論文中,很好地總結了這個問題)
  2. Christos Agiakloglou 和 Apostolos Tsimpanos,固定 AR(1) 過程的虛假相關性 http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.611.5055&rep=rep1&type=pdf (這表明你甚至可以得到平穩序列之間的問題;因此傾向於預白化)
  3. Yule 的經典參考文獻,(1926)[1] 如上所述。

您可能還會發現此處的討論以及此處的討論很有

在時間序列之間以​​有意義的方式使用 Pearson 相關性是困難的,有時甚至出奇的微妙。


我查找了虛假相關性,但我不在乎我的 A 系列是否是我的 B 系列的原因,反之亦然。我只想知道您是否可以通過查看 B 系列正在做什麼來了解 A 系列(反之亦然)。換句話說 - 它們是否具有相關性。

請注意我之前對維基百科文章中虛假相關一詞的狹義使用的評論。

關於虛假相關性的一點是,序列可能看起來相關,但相關性本身沒有意義。考慮兩個人投擲兩個不同的硬幣,計算到目前為止正面的數量減去反面的數量,直到他們的系列的價值。

(所以如果人 1 拋 $ \text{HTHH…} $ 他們在第 4 個時間步的值有 3-1 = 2,他們的系列去 $ 1, 0, 1, 2,… $ .)

顯然這兩個系列之間沒有任何联系。顯然,兩者都不能告訴你關於對方的第一件事!

但是看看你在硬幣對之間得到的那種相關性:

在此處輸入圖像描述

如果我不告訴你這些是什麼,而你自己拿了這些系列中的任何一對,那將是令人印象深刻的相關性,不是嗎?

但它們都毫無意義。徹頭徹尾的虛假。這三對中的任何一對都沒有比其他任何一對更積極或消極地相互關聯——它只是累積的噪音虛假性不僅僅是關於預測,考慮系列之間的關聯而不考慮系列內依賴性的整個概念是錯誤的*。*

您在這裡所擁有的只是系列**內依賴性。沒有任何實際的跨系列關係。

一旦你正確處理了使這些系列自動依賴的問題——它們都是集成的(伯努利隨機遊走),所以你需要區分它們——“明顯”關聯消失了(三個中最大的絕對跨系列相關性)為 0.048)。

這告訴你的是事實——明顯的關聯只是由系列內的依賴引起的幻覺。

您的問題是“如何正確使用 Pearson 相關性與時間序列” - 所以請理解:如果存在系列內依賴性並且您先處理它,您將無法正確使用它。

此外,平滑不會減少串行依賴的問題;恰恰相反——它使情況變得更糟!以下是平滑後的相關性(默認黃土平滑 - 系列與指數 - 在 R 中執行):

           coin1      coin2     
coin2   0.9696378 
coin3  -0.8829326 -0.7733559 

它們都離0更遠了。它們仍然只是無意義的噪聲,儘管現在它是平滑的累積噪聲。(通過平滑,我們減少了放入相關計算中的序列的可變性,因此這可能是相關性上升的原因。)

[1]: Yule, GU (1926) “為什麼我們有時會得到時間序列之間的廢話相關性?” J.Roy.Stat.Soc. , 89 , 1 , 第 1-63 頁

引用自:https://stats.stackexchange.com/questions/133155

comments powered by Disqus