Regression

什麼時候可以將引導程序應用於時間序列模型?

  • February 15, 2020

在什麼情況下可以應用重採樣技術來量化時間序列模型參數的不確定性?

假設我有如下模型:

$ Y_t = X_t\beta + e_t $

(在哪裡 $ X_t $ 可能包括 Y 的滯後 $ _t $ )

我想使用重複的重新採樣(“引導程序”)來生成模型參數的分佈。我知道在時間序列情況下通常需要警惕。

我的問題是:這在什麼情況下有效?

我在想,在固定輸入變量的情況下,這很可能是有意義的。但是,如果我對存在協整關係感到滿意呢?

在那種情況下有效嗎?

在得到我的答案之前,我想我應該指出您的問題標題和問題的主體之間存在不匹配。引導時間序列通常是一個非常廣泛的主題,必須解決所考慮的特定模型的各種細微差別。當應用於協整時間序列的特定情況時,有一些方法可以處理時間序列集合之間的特定關係。

首先,快速回顧一下相關概念,以便我們有一個共同的起點。

隨機過程

所考慮的時間序列將是離散時間隨機過程。回想一下,隨機過程是隨機變量的集合,離散時間限定符描述了索引集的基數。所以我們可以寫一個時間序列為 $ {X_{t}}{t\in \mathbb{N}} $ , 其中每個 $ X{t} $ 是一個隨機變量,索引集是 $ \mathbb{N} = {0, 1, 2, \dots} $ . 來自這樣一個時間序列的樣本由一系列觀察組成 $ x_{0}, x_{1}, x_{2}, \dots $ 這樣 $ x_{i} $ 是隨機變量的實現 $ X_{i} $ . 這是一個最小的、非常籠統的定義,因此通常假設要支撐更多的結構以承受更重的機械。感興趣的結構是無限系列隨機變量的聯合分佈,除非我們處理白噪聲,否則確定這個聯合分佈是工作發生的地方。顯然,我們在實踐中也只能訪問有限長度的樣本 $ x_{0}, x_{1}, \dots, x_{n} $ ,並且模型通常會施加約束,這些約束意味著任何潛在的關節結構(希望)都可以被這樣的有限樣本捕獲。正如您可能知道的那樣,有許多模型體現了這些結構假設所採用的各種功能形式。熟悉的如 ARIMA、GARCH、VAR 和可能不太熟悉的(假設正確指定了所選模型)都嘗試通過某種變換或模型擬合來捕獲規則結構,以及擬合值之間留下的任何殘餘隨機性並且可以以簡單的形式(通常是高斯)對觀察結果進行建模。

自舉

bootstrap 的一般思想是用經驗分佈代替理論分佈,並使用觀察到的數據,就好像它由理論總體組成一樣。如果滿足某些條件,這些條件直觀地對應於“代表”總體的數據,那麼從數據中重新抽樣可以近似從總體中抽樣。

在 bootstrap 的基本公式中,假設數據是由 iid 過程生成的——每個樣本都是來自同一分佈的獨立抽取。給定一個數據集 $ x_{1}, \dots, x_{n} $ ,我們隨機重採樣並替換一個數據集 $ x^_{1}, \dots, x^{n} $ , 其中每個 $ x^*{i} $ 是從均勻分佈中獨立抽取 $ x_{1}, \dots, x_{n} $ . 換句話說,每個 $ x^_{i} $ 是隨機變量的獨立實現 $ X^ $ 它在觀測值上具有離散的均勻分佈,概率質量為 $ \frac{1}{n} $ 在每個數據點上 $ x_{i} $ . 請注意,這如何反映了從總體中假設的抽樣機制,其中每個 $ x_{i} $ 是隨機變量的獨立實現 $ X $ 它具有感興趣的理論人口分佈。希望當引導程序有意義時,明確列出所有內容:如果您的原始採樣過程由 iid 從某個固定但未知的分佈中抽取,並且每個採樣點都被用來揭示有關該分佈的等量信息,然後從數據可以合理地替代總體抽樣。使用這些重採樣,您可以做所有常見的事情,例如估計模型參數的分佈和匯總統計數據,然後使用這些分佈進行推理。

自舉時間序列

基於上述討論,應該清楚的是,將基本引導程序應用於時間序列數據通常是一個壞主意。上面的基本引導程序關鍵取決於由固定人口分佈中的 iid 組成的初始樣本——這通常不適用於各種時間序列模型。模型錯誤指定進一步加劇了這個問題,這在實踐中應該始終是一個考慮因素 - 對沖你的賭注。

同樣,根據假定的特定模型,對基本自舉過程有特定的修改,這些修改是模型感知的,甚至可能對錯誤指定具有魯棒性。您使用哪種方法將取決於首先確定模型並考慮錯誤指定的後果。我將描述一些時間序列的通用方法,並指出一些用於協整案例的特定方法的來源。

一種廣泛應用的時間序列引導技術是塊引導。基本思想是,由於樣本的順序性 $ x_{0}, x_{1}, \dots, x_{n} $ 對感興趣的信息進行編碼,我們希望我們的重採樣過程能夠捕獲這些非常連續的信息。這個想法符合基本引導程序的精神,因為重採樣過程試圖反映原始採樣過程。要執行塊引導,您需要設置一些塊大小 $ \ell $ ,並將您的數據拆分為連續的塊 $ x_{i}, x_{i+1}, \dots, x_{i + l - 1} $ . 然後,您通過替換數據執行重新採樣,以生成自舉樣本,並在所有塊上均勻分佈。在這裡,也有各種細微差別,取決於您是否允許初始塊重疊,如何連接它們等。關於這類方法的一個主要觀察點是,雖然塊是連續的,但重採樣有效地打亂了塊的順序。這意味著塊引導保持局部順序依賴(在每個塊內),但全局由於這種改組,順序依賴性會丟失。這就是為什麼在使用 ARIMA、STL 或局部回歸模型時,塊引導方法可能是一個不錯的選擇;只要你的塊大小 $ \ell $ 已經選擇捕獲模型最重要的“長度”(假設它被正確指定),那麼重採樣引起的塊的混洗不應該造成太大的麻煩。但是您需要根據您的模型、目標和數據權衡適當性,並且仍然可能需要進行試驗以確定適當的塊大小 - 假設您有足夠長的樣本來容納適當的塊大小次第一次。有關某些特定應用,請參見 [ 1 ]。如果您使用的是 R,tsboot則包中的函數boot實現了塊引導程序的幾種變體。

應用於時間序列的另一種引導是篩引導。該名稱來自篩估計器。在這裡,我們再次嘗試讓我們的重採樣過程模擬原始採樣方法,但不是對數據進行重採樣,而是通過使用殘差的 AR 模型生成一個新的數據集,使用觀察到的殘差上的經驗分佈對各個殘差進行重採樣。假設底層 AR 模型是無限階的,但每個重採樣 AR 模型都是有限階的 - 儘管允許階以由樣本大小確定的速率增長。這種順序的漸近增加是名稱的“篩子”部分,因為隨著樣本量的增加,您越來越接近目標模型。見 [ 2 ] 和 [ 3] 了解篩引導程序的概述。AR 模型是我們在這種情況下捕獲順序依賴結構的方式。因為以遞歸方式模擬新的合成數據,所以篩引導方法試圖保留數據中的全局順序依賴性——這與塊引導的*局部屬性形成對比。*這種方法也可能是您想要應用於協整時間序列的方法,因為在協整時間序列的情況下直接重新採樣數據似乎存在問題 [ 4 ]。有關篩引導在協整模型中的具體應用,請參見 [ 5 ]。如果您使用的是 R,則該tseriesEntropy包具有surrogate.AR實現篩引導程序的功能。

還有其他可以應用於時間序列的自舉方法,以及上述一般方法的變體——其他檢查方法可能是固定自舉狂野自舉。有關引導時間序列的一般概述,請參閱 [ 6 ]。正如mlofton提到的,我希望已經說明了,引導時間序列是一個複雜的問題,具有針對特定情況設計的各種解決方案。他們提到的作者 MacKinnon 和 Davidson 的另一篇參考資料可在此處找到 [ 7 ]。

抱歉,我避免了技術的明確數學公式,但您的問題似乎尋求某種直觀的解釋,說明哪些考慮因素決定了引導時間序列的適當方法,正如我所提到的,任何特定技術的適當性取決於您模型的具體情況,目標和數據。希望這些參考資料能為您指明正確的方向。

參考

  1. Petropoulos, F.、Hyndman, RJ 和 Bergmeir, C.,2018 年。探索不確定性的來源:為什麼時間序列預測的 bagging 有效?. 歐洲運籌學雜誌,268(2),pp.545-554。
  2. Bühlmann, P., 1997。時間序列的篩引導。伯努利,3(2),第 123-148 頁。
  3. Andrés, MA, Peña, D. 和 Romo, J., 2002。使用篩引導法預測時間序列。統計規劃與推理雜誌,100(1),pp.1-11。
  4. Li, H. 和 Maddala, GS, 1997。自舉協整回歸。計量經濟學雜誌,80(2),pp.297-318。
  5. Chang, Y.、Park, JY 和 Song, K.,2006 年。自舉協整回歸。計量經濟學雜誌,133(2),pp.703-739。
  6. Bühlmann, P.,2002 年。時間序列的引導程序。統計科學,第 52-72 頁。
  7. Davidson, R. 和 MacKinnon, JG, 2006。計量經濟學中的引導方法

引用自:https://stats.stackexchange.com/questions/449613

comments powered by Disqus