如何確定時間序列的可預測性?
預測者面臨的重要問題之一是給定序列是否 可以預測?
我偶然發現了 Peter Catt的一篇題為“熵作為可預測性的先驗指標”的文章,該文章使用近似熵 (ApEn) 作為確定給定時間序列是否可預測的相對度量。
文章說,
“較小的 ApEn 值表明一組數據後面跟著相似數據的可能性更大(規則性)。相反,較大的 ApEn 值表明重複相似數據的可能性較低(不規則性)。因此,較大的值傳達更多的無序,隨機性和系統複雜性。”
然後是計算 ApEn 的數學公式。這是一種有趣的方法,因為它提供了一個數值,可用於評估相對意義上的可預測性。我不知道近似熵是什麼意思,我正在閱讀更多關於它的信息。
有一個名為pracma的包
R
,可讓您計算 ApEn。出於說明目的,我使用了 3 個不同的時間序列併計算了 ApEn 數。
- **系列 1:**著名的 AirPassenger 時間序列 - 具有高度確定性,我們應該能夠輕鬆預測。
- **系列 2:**太陽黑子時間序列 - 定義非常明確,但應該比系列 1 更難預測。
- **系列 3:**隨機數 無法預測這個系列。
所以如果我們計算 ApEn,系列 1 應該小於系列 2 應該非常非常少系列 3。
下面是計算所有三個系列的 ApEn 的 R 片段。
library("pracma") > series1 <- approx_entropy(AirPassengers) > series1 [1] 0.5157758 > series2 <- approx_entropy(sunspot.year) > series2 [1] 0.762243 > series3 <- approx_entropy(rnorm(1:30)) > series3 [1] 0.1529609
這不是我所期望的。隨機系列的數量低於定義明確的 AirPassenger 系列。即使我將隨機數增加到 100,我仍然得到以下小於明確定義的系列 2/Sunspot.yealry 系列。
> series3 <- approx_entropy(rnorm(1:100)) > series3 [1] 0.747275
以下是我的問題:
m
計算 ApEn (和)時有 2 個參數r
?如何確定它們。R
在上面的代碼中使用了默認值。- 我做錯了什麼,錯誤地表明 ApEn 對於隨機數與定義明確的系列(如 sunspot.yearly)相比較低。
- 我是否應該對系列進行去季節化/去趨勢化,然後估計 ApEn。然而,作者已將 ApEn 直接應用於該系列。
- 有沒有其他方法可以確定該系列是否可預測?
與計算時間序列的近似熵(ApEn)有關的參數
m
和,分別是窗口(序列)長度和容差(過濾器值)。事實上,就以及(數據點的數量)而言,ApEn被定義為“與長度重複模式相比,長度重複模式的相對流行率的自然對數”(Balasis、Daglis、Anastasiadis & Eftaxias,2011 ,第 215 頁):r``m``r``N``m``m + 1
因此,似乎改變容差
r
允許控制確定時間序列熵的(時間)粒度。儘管如此,在包的熵函數調用中使用默認值m
和r
參數都可以正常工作。要查看所有三個時間序列的正確熵值關係pracma
,唯一需要做的修復是增加隨機數據向量的長度:library(pracma) set.seed(10) all.series <- list(series1 = AirPassengers, series2 = sunspot.year, series3 = rnorm(500)) # <== size increased sapply(all.series, approx_entropy) series1 series2 series3 0.5157758 0.7622430 1.4741971
結果與預期的一樣——隨著波動的可預測性從最確定的下降
series1
到最隨機series 3
的,它們的熵因此增加:ApEn(series1) < ApEn(series2) < ApEn(series3)
。關於可預測性的其他度量,您可能需要檢查平均絕對比例誤差 (MASE) - 有關更多詳細信息,請參閱此討論。可預測成分分析似乎也是確定時間序列可預測性的一種有趣且新的**方法。**而且,可以預料的是,還有一個包——ForeCA。
R
library(ForeCA) sapply(all.series, Omega, spectrum.control = list(method = "wosa")) series1 series2 series3 41.239218 25.333105 1.171738
這裡是可預測性的度量,其中和.
參考
Balasis, G., Daglis, IA, Anastasiadis, A., & Eftaxias, K. (2011)。使用熵概念和重新縮放的範圍分析檢測 Dst 時間 sSeries 中的動態復雜性變化。載於 W. Liu 和 M. Fujimoto(Eds.),動態磁層,IAGA Special Sopron Book,系列 3,211. doi:10.1007/978-94-007-0501-2_12。施普林格。取自http://members.noa.gr/anastasi/papers/B29.pdf
Georg M. Goerg (2013):可預測成分分析。JMLR,W&CP (2) 2013:64-72。http://machinelearning.wustl.edu/mlpapers/papers/goerg13