Autocorrelation

對獨立隨機數序列取 L 階差分時的高自相關性

  • December 10, 2016

為了更詳細地解釋這個問題,我將首先詳細說明我的方法:

  1. 我模擬了一系列獨立的隨機數.
  2. 然後我拿乘以差異;即我創建變量:

我觀察到(絕對)自相關增加為變大;ac 甚至接近 0.99. 即,當採用 L 階差分時,我們從最初獨立的序列中創建一系列高度相關的數字(序列)。

以下是一些圖表來說明我的觀察:

在此處輸入圖像描述

在此處輸入圖像描述

在此處輸入圖像描述

我的問題:

  • 這種方法背後是否有任何理論,以及它的含義或應用?
  • 這是否表明這種方法利用了(計算機的)偽隨機生成器的弱點。即生成的“隨機”序列並不是真正隨機的,這從我的方法中得到了說明/證明?
  • 我們能否利用 L 階差異的高自相關性來預測序列中的下一個數字(即)。即如果我們可以預測下一個數量(通過例如線性回歸),我們可以推導出估計的序列通過服用乘以累計總和。這是一種可行的方法嗎?

客觀 注意,我正在嘗試預測,但由於數字是獨立隨機生成的,這非常困難(低 ac)。

理論

如果自相關要有意義,我們必須假設原始隨機變量 $ X_0, X_1, \ldots, X_N $ 具有相同的方差,通過選擇合適的度量單位,我們可以將其設置為統一。從公式為 $ L^\text{th} $ 有限差分

$$ X^{(L)}i=(\Delta^L(X))i = \sum{k=0}^L (-1)^{L-k}\binom{L}{k} X{i+k} $$

為了 $ 0 \le i \le N-L $ 和獨立性 $ X_i $ 我們很容易計算

$$ \operatorname{Var}(X^{(L)}i) = \sum{k=0}^L \binom{L}{k}^2 = \binom{2L}{L}\tag{1} $$

並且對於 $ 0 \lt j \lt L $ 和 $ i \le N-L-j $ ,

$$ \operatorname{Cov}(X^{(L)}i, X^{(L)}{i+j}) = (-1)^{j}\sum_{k=0}^{L-j} \binom{L}{k}\binom{L}{k+j} = (-1)^{j}\frac{4^L \binom{L}{j} j!\Gamma(L+1/2)}{\sqrt{\pi}(L+j)!}.\tag{2} $$

劃分 $ (2) $ 經過 $ (1) $ 給出了滯後- $ j $ 序列相關 $ \rho_j $ . 奇數為負 $ j $ 甚至積極 $ j $ .

斯特林公式給出了一個易於解釋的近似值

$$ \log(|\rho_j|) \approx -\left(\frac{j^2}{L} - \frac{j^2}{2 L^2} + \frac{j^2 \left(j^2+1\right)}{6L^3}-\frac{j^4}{4 L^4} + O(L^{-5})O(j^6)\right) $$

作為一個函數 $ j $ 它的大小大致是一個高斯(“鐘形”)曲線,正如我們對任何基於擴散的過程(如連續差異)所期望的那樣。這是一個情節 $ |\rho_1| $ 通過 $ |\rho_5| $ 作為一個函數 $ L $ ,顯示序列相關性接近的速度有多快 $ 1 $ . 按從上到下的順序,點代表 $ |\rho_1| $ 通過 $ |\rho_5| $ .

數字

結論

因為這些純粹是數學關係,所以它們幾乎沒有揭示 $ X_i $ . 特別是,因為所有有限差分都是原始變量的線性組合,它們沒有提供可用於預測的額外信息 $ X_{N+1} $ 從 $ X_0, X_1, \ldots, X_N $ .

實際觀察

作為 $ L $ 增長,線性組合中的係數呈指數增長。請注意,每個 $ X^{(L)}_i $ 是一個交替和:具體來說,在該和的中間出現了相對較大的係數,接近 $ \binom{L}{L/2} $ . 考慮受一點隨機噪聲影響的實際數據。這種噪聲乘以這些大的二項式係數,然後這些大的結果幾乎被交替加減法*抵消。*因此,計算這樣的有限差分對於大 $ L $ 往往會消除數據中的所有信息,而僅反映少量噪聲,包括測量誤差和浮點舍入誤差。問題中顯示的差異的明顯模式 $ L=100 $ 和 $ L=168 $ 幾乎可以肯定沒有提供任何有意義的信息。(二項式係數為 $ L=100 $ 變大 $ 10^{29} $ 並且小到 $ 1 $ ,意味著雙精度浮點誤差將主導計算。)

引用自:https://stats.stackexchange.com/questions/250728

comments powered by Disqus