Time-Series

如何確定時間序列的可預測性?

  • December 5, 2014

預測者面臨的重要問題之一是給定序列是否 可以預測?

我偶然發現了 Peter Catt的一篇題為“熵作為可預測性的先驗指標”的文章,該文章使用近似熵 (ApEn) 作為確定給定時間序列是否可預測的相對度量。

文章說,

“較小的 ApEn 值表明一組數據後面跟著相似數據的可能性更大(規則性)。相反,較大的 ApEn 值表明重複相似數據的可能性較低(不規則性)。因此,較大的值傳達更多的無序,隨機性和系統複雜性。”

然後是計算 ApEn 的數學公式。這是一種有趣的方法,因為它提供了一個數值,可用於評估相對意義上的可預測性。我不知道近似熵是什麼意思,我正在閱讀更多關於它的信息。

有一個名為pracma的包R,可讓您計算 ApEn。出於說明目的,我使用了 3 個不同的時間序列併計算了 ApEn 數。

  1. **系列 1:**著名的 AirPassenger 時間序列 - 具有高度確定性,我們應該能夠輕鬆預測。
  2. **系列 2:**太陽黑子時間序列 - 定義非常明確,但應該比系列 1 更難預測。
  3. **系列 3:**隨機數 無法預測這個系列。

所以如果我們計算 ApEn,系列 1 應該小於系列 2 應該非常非常少系列 3。

下面是計算所有三個系列的 ApEn 的 R 片段。

library("pracma")
> series1 <- approx_entropy(AirPassengers)
> series1
[1] 0.5157758
> series2 <- approx_entropy(sunspot.year)
> series2
[1] 0.762243
> series3 <- approx_entropy(rnorm(1:30))
> series3
[1] 0.1529609

這不是我所期望的。隨機系列的數量低於定義明確的 AirPassenger 系列。即使我將隨機數增加到 100,我仍然得到以下小於明確定義的系列 2/Sunspot.yealry 系列。

> series3 <- approx_entropy(rnorm(1:100))
> series3
[1] 0.747275

以下是我的問題:

  1. m計算 ApEn (和)時有 2 個參數r?如何確定它們。R在上面的代碼中使用了默認值。
  2. 我做錯了什麼,錯誤地表明 ApEn 對於隨機數與定義明確的系列(如 sunspot.yearly)相比較低。
  3. 我是否應該對系列進行去季節化/去趨勢化,然後估計 ApEn。然而,作者已將 ApEn 直接應用於該系列。
  4. 有沒有其他方法可以確定該系列是否可預測?

與計算時間序列的近似熵(ApEn)有關的參數m和,分別是窗口(序列)長度容差(過濾器值)。事實上,就以及(數據點的數量)而言,ApEn定義為“與長度重複模式相比,長度重複模式的相對流行率的自然對數”(Balasis、Daglis、Anastasiadis & Eftaxias,2011 ,第 215 頁):r``m``r``N``m``m + 1

因此,似乎改變容差r允許控制確定時間序列熵的(時間)粒度。儘管如此,在包的熵函數調用中使用默認值mr參數都可以正常工作。要查看所有三個時間序列的正確熵值關係pracma,唯一需要做的修復是增加隨機數據向量的長度

library(pracma)
set.seed(10)
all.series <- list(series1 = AirPassengers,
                   series2 = sunspot.year,
                   series3 = rnorm(500)) # <== size increased
sapply(all.series, approx_entropy)
 series1   series2   series3 
 0.5157758 0.7622430 1.4741971 

結果與預期的一樣——隨著波動的可預測性從最確定的下降series1到最隨機series 3的,它們的熵因此增加:ApEn(series1) < ApEn(series2) < ApEn(series3)

關於可預測性的其他度量,您可能需要檢查平均絕對比例誤差 (MASE) - 有關更多詳細信息,請參閱此討論可預測成分分析似乎也是確定時間序列可預測性的一種有趣且新的**方法。**而且,可以預料的是,還有一個包——ForeCAR

library(ForeCA)
sapply(all.series,
      Omega, spectrum.control = list(method = "wosa"))
series1   series2   series3 
41.239218 25.333105  1.171738 

這裡是可預測性的度量,其中和.

參考

Balasis, G., Daglis, IA, Anastasiadis, A., & Eftaxias, K. (2011)。使用熵概念和重新縮放的範圍分析檢測 Dst 時間 sSeries 中的動態復雜性變化。載於 W. Liu 和 M. Fujimoto(Eds.),動態磁層,IAGA Special Sopron Book,系列 3,211. doi:10.1007/978-94-007-0501-2_12。施普林格。取自http://members.noa.gr/anastasi/papers/B29.pdf

Georg M. Goerg (2013):可預測成分分析。JMLR,W&CP (2) 2013:64-72。http://machinelearning.wustl.edu/mlpapers/papers/goerg13

引用自:https://stats.stackexchange.com/questions/126829

comments powered by Disqus