了解此 acf 輸出
acf(c(0,1,2,3,4,5),plot=FALSE) Autocorrelations of series ‘c(0, 1, 2, 3, 4, 5)’, by lag 0 1 2 3 4 5 1.000 0.500 0.057 -0.271 -0.429 -0.357
為什麼 ACF 輸出隨著延遲的增加而變為負數?我的理解是,無論滯後是什麼,該系列總體上都在增加。因此,自相關應該是正的。例如,在滯後 2 處,我們正在計算兩個系列
[0,1,2,3]
和的相關函數[2,3,4,5]
,其中正相關仍然成立。我在哪裡弄錯了?更新
這是我對單調遞增序列的acf的直觀理解:
序列的 ACF 是一個函數滯後,k。根據定義,這個函數確實測量了兩者之間的相關性和. 誤解來自對相關性的理解。單調遞增的序列不是平穩的,因此均值不穩定。換句話說,該序列沒有表現出均值回復行為。這扭曲了我通常對相關性的理解(當我們考慮平均水平為 0 時)。由於平均值隨著時間的推移而增加,那些較早出現的觀察結果更有可能低於樣本平均值,因此當滯後較大時會導致負樣本 acf。
讓成為系列。放
這些是關於估計平均值的殘差系列的。
為了該
acf
功能正在計算請注意,作為滯後增長,分子中的項越來越少,乘積中的索引也發生了變化。分子中項數的減少實質上會迫使值減少,因為增加。大多數時間序列分析只考慮滯後遠小於這種影響可以忽略不計。
在你的例子中,最初具有負值,然後進入正值區域。對於滯後, 產品將早期的負值與後來的正值配對,產生負數。
編輯:直觀的解釋
直覺上,應該告訴我們一個系列與其滯後之間的相關性版本。這個問題的動機是一個系列像與其所有滯後完全相關直接通過. 那麼,ACF 圖如何產生接近於零甚至負值的值呢?
這裡有兩個因素在起作用。 它們可以通過將 ACF 公式與通常的相關係數進行比較來看出。對於兩個系列和一樣長的, 讓和成為他們的殘差。(在隨後的討論中,將是前綴 和將是後綴 .) 根據定義,它們的相關係數是平均標準化殘差,
(常數通常出現在平均值的公式中以這個比率取消,所以我省略了它們。)
當我們處理單個系列時長度及其(短)滯後, 兩個都和本質上是一樣的,除了變化在他們的索引中:第一個包括為了從通過(高-結束已被修剪掉),而第二個由相同的 為了從通過(低-end 已被刪除)。如果我們忽略這些細微的差異,分母簡化為
在做這個近似時,我插入了第一個條款為後綴 () 和最後一個條款為前綴的總和 ()。因為它們都是平方和,所以它們不能減少分母,通常會增加一點。因此,我們看到使用分母中的表觀相關性降低. 滯後越大,分母越傾向於增加,所以這個因素無論如何都會降低 ACF 的高滯後值。
第二個因素與整個系列的平均值之間的差異有關以及前綴的含義和後綴. ACF 公式使用前者,而相關係數公式使用後者。我們可以通過比較 ACF 和相關係數公式來計算分子的變化,代數工作使 ACF 分子看起來像分子:
(由於通常的原因,交叉項在第二行之後消失了:它們的總和為零。)
比較公式為,我們看到分子的差異取決於滯後(就)以及手段變化的產物, 和. 對於固定係列和大型這些變化應該很小;對於小我們希望它們會很小,但也許不會。例如,在示例中,在 lag去掉最後一項後的平均值減少了去掉第一項後的平均值同樣增加了. 產品
與 ACF 中的分子相比,減小ACF 中的分子.
示例中這兩個因素的淨效應是兩者共同降低了表觀相關性:分母上升,因為它總體上包含了更多的正項,分子下降,因為系列的一端往往是小於平均值,而另一端往往大於平均值。(這或多或少是“長期趨勢”的意思,表明這個系列中有一些非平穩的證據。)
為了說明 ACF 的公式,這裡是計算的直接(但效率較低)
R
代碼acf
:acf.0 <- function(x) { n <- length(x) y <- x - mean(x) sapply(1:n - 1, function(k) sum( y[1:(n-k)] * y[1:(n-k) + k] )) / sum(y * y) }
作為測試,比較兩個結果:
> sum((acf.0(0:5) - acf(0:5, plot=FALSE)$acf)^2) > 6.162976e-33
答案同意在雙精度浮點舍入誤差範圍內。