對獨立隨機數序列取 L 階差分時的高自相關性

December 10, 2016

為了更詳細地解釋這個問題，我將首先詳細說明我的方法：

我模擬了一系列獨立的隨機數.

然後我拿乘以差異；即我創建變量：

我觀察到（絕對）自相關增加為變大；ac 甚至接近 0.99. 即，當採用 L 階差分時，我們從最初獨立的序列中創建一系列高度相關的數字（序列）。

以下是一些圖表來說明我的觀察：

我的問題：

這種方法背後是否有任何理論，以及它的含義或應用？

這是否表明這種方法利用了（計算機的）偽隨機生成器的弱點。即生成的“隨機”序列並不是真正隨機的，這從我的方法中得到了說明/證明？

我們能否利用 L 階差異的高自相關性來預測序列中的下一個數字（即）。即如果我們可以預測下一個數量（通過例如線性回歸），我們可以推導出估計的序列通過服用乘以累計總和。這是一種可行的方法嗎？

客觀注意，我正在嘗試預測，但由於數字是獨立隨機生成的，這非常困難（低 ac）。

理論

如果自相關要有意義，我們必須假設原始隨機變量 $ X_0, X_1, \ldots, X_N $ 具有相同的方差，通過選擇合適的度量單位，我們可以將其設置為統一。從公式為 $ L^\text{th} $ 有限差分

$$ X^{(L)}i=(\Delta^L(X))i = \sum{k=0}^L (-1)^{L-k}\binom{L}{k} X{i+k} $$

為了 $ 0 \le i \le N-L $ 和獨立性 $ X_i $ 我們很容易計算

$$ \operatorname{Var}(X^{(L)}i) = \sum{k=0}^L \binom{L}{k}^2 = \binom{2L}{L}\tag{1} $$

並且對於 $ 0 \lt j \lt L $ 和 $ i \le N-L-j $ ,

$$ \operatorname{Cov}(X^{(L)}i, X^{(L)}{i+j}) = (-1)^{j}\sum_{k=0}^{L-j} \binom{L}{k}\binom{L}{k+j} = (-1)^{j}\frac{4^L \binom{L}{j} j!\Gamma(L+1/2)}{\sqrt{\pi}(L+j)!}.\tag{2} $$

劃分 $ (2) $ 經過 $ (1) $ 給出了滯後- $ j $ 序列相關 $ \rho_j $ . 奇數為負 $ j $ 甚至積極 $ j $ .

斯特林公式給出了一個易於解釋的近似值

$$ \log(|\rho_j|) \approx -\left(\frac{j^2}{L} - \frac{j^2}{2 L^2} + \frac{j^2 \left(j^2+1\right)}{6L^3}-\frac{j^4}{4 L^4} + O(L^{-5})O(j^6)\right) $$

作為一個函數 $ j $ 它的大小大致是一個高斯（“鐘形”）曲線，正如我們對任何基於擴散的過程（如連續差異）所期望的那樣。這是一個情節 $ |\rho_1| $ 通過 $ |\rho_5| $ 作為一個函數 $ L $ ，顯示序列相關性接近的速度有多快 $ 1 $ . 按從上到下的順序，點代表 $ |\rho_1| $ 通過 $ |\rho_5| $ .

結論

因為這些純粹是數學關係，所以它們幾乎沒有揭示 $ X_i $ . 特別是，因為所有有限差分都是原始變量的線性組合，它們沒有提供可用於預測的額外信息 $ X_{N+1} $ 從 $ X_0, X_1, \ldots, X_N $ .

實際觀察

作為 $ L $ 增長，線性組合中的係數呈指數增長。請注意，每個 $ X^{(L)}_i $ 是一個交替和：具體來說，在該和的中間出現了相對較大的係數，接近 $ \binom{L}{L/2} $ . 考慮受一點隨機噪聲影響的實際數據。這種噪聲乘以這些大的二項式係數，然後這些大的結果幾乎被交替加減法*抵消。*因此，計算這樣的有限差分對於大 $ L $ 往往會消除數據中的所有信息，而僅反映少量噪聲，包括測量誤差和浮點舍入誤差。問題中顯示的差異的明顯模式 $ L=100 $ 和 $ L=168 $ 幾乎可以肯定沒有提供任何有意義的信息。（二項式係數為 $ L=100 $ 變大 $ 10^{29} $ 並且小到 $ 1 $ ，意味著雙精度浮點誤差將主導計算。）

引用自：https://stats.stackexchange.com/questions/250728

comments powered by Disqus

對獨立隨機數序列取 L 階差分時的高自相關性

理論

結論

實際觀察

相關問答

如何確定隨機數生成器使用均勻分佈的可能性？

採樣自𝑥2𝜙(𝑥)X2φ(X)x^2phi(x)?

如何生成具有特定均值的 1 到 4 之間的隨機整數？

找到一種方法來模擬這個分佈的隨機數

檢查字符串是否不是隨機的

隨機數生成器中的種子到底是什麼？