自相關是怎麼回事?
首先,我有相當深厚的數學背景,但我從未真正處理過時間序列或統計建模。所以你不必對我很溫柔:)
我正在閱讀這篇關於商業建築能源使用建模的論文,作者提出以下主張:
[自相關的出現]是因為模型是從能源使用的時間序列數據發展而來的,這本質上是自相關的。時間序列數據的任何純確定性模型都將具有自相關性。如果模型中包含[更多傅立葉係數],則發現自相關會降低。然而,在大多數情況下,傅立葉模型的 CV 較低。因此,對於不要求高精度的實際目的,該模型可能是可以接受的。
0.)“時間序列數據的任何純確定性模型都將具有自相關”是什麼意思?我可以模糊地理解這意味著什麼——例如,如果你的自相關為 0,你會如何預測時間序列中的下一個點?可以肯定,這不是一個數學論證,這就是為什麼這是 0 :)
1.)我的印像是自相關基本上殺死了你的模型,但仔細想想,我不明白為什麼會這樣。那麼為什麼自相關是一件壞事(或好事)?
2.)我聽說過處理自相關的解決方案是區分時間序列。如果不嘗試閱讀作者的想法,如果存在不可忽略的自相關,為什麼不做差異呢?
3.) 不可忽略的自相關對模型有什麼限制?這是某個地方的假設(即,使用簡單線性回歸建模時的正態分佈殘差)?
無論如何,對不起,如果這些是基本問題,並提前感謝您的幫助。
- 我認為作者可能在談論模型的殘差。我之所以這麼說,是因為他關於添加更多傅立葉係數的聲明;如果我相信他正在擬合傅立葉模型,那麼添加更多係數將降低殘差的自相關性,但會以更高的 CV 為代價。
如果您無法將其可視化,請考慮以下示例:假設您有以下 100 點數據集,該數據集來自添加了高斯白噪聲的二係數傅立葉模型:
下圖顯示了兩種擬合:一種使用 2 個傅立葉係數,另一種使用 200 個傅立葉係數:
如您所見,200 個傅立葉係數更適合 DATAPOINTS,而 2 係數擬合(“真實”模型)更適合 MODEL。這意味著具有 200 個係數的模型殘差的自相關幾乎肯定會比 2 個係數模型的殘差在所有滯後都更接近於零,因為具有 200 個係數的模型幾乎完全適合所有數據點(即殘差將幾乎全為零)。但是,如果您從樣本中留下 10 個數據點並擬合相同的模型,您認為會發生什麼?2 係數模型將更好地預測您從樣本中遺漏的數據點!因此,與 200 係數模型相比,它將產生較低的 CV 誤差;這稱為過擬合. 這種“魔術”背後的原因是因為 CV 實際上試圖測量的是預測誤差,即您的模型預測數據集中不在數據集中的數據點的程度。 2. 在這種情況下,殘差的自相關是“不好的”,因為這意味著您沒有對數據點之間的相關性進行足夠好的建模。人們不區分系列的主要原因是因為他們實際上想按原樣對底層過程進行**建模。**對時間序列進行差異化通常是為了擺脫週期性或趨勢,但如果該週期性或趨勢實際上是您要建模的內容,那麼對它們進行差異化似乎是最後的選擇(或用於對殘差進行建模的選項)一個更複雜的隨機過程)。 3. 這實際上取決於您正在從事的領域。這也可能是確定性模型的問題。但是,根據自相關的形式,當自相關由於閃爍噪聲、類似 ARMA 的噪聲或者它是殘餘的潛在周期性源(在這種情況下您可能想要增加傅立葉係數的數量)。