如何填寫時間序列中的缺失數據?
我有一大組污染數據,在 2 年的時間裡每 10 分鐘記錄一次,但是數據中存在許多差距(包括一些一次持續幾週的數據)。
數據似乎確實具有很強的季節性,與夜間相比,白天的變化很大,夜間的值變化不大,數據點較低。
我考慮過將黃土模型分別擬合到白天和夜間子集(因為它們之間存在明顯差異),然後預測缺失數據的值並填充這些點。
我想知道這是否是解決此問題的合適方法,以及是否需要將局部變化添加到預測點中。
答案將取決於您的研究設計(例如,橫截面時間序列?隊列時間序列,串行隊列時間序列?)。Honaker 和 King 開發了一種對橫截面時間序列有用的方法(可能對串行隊列時間序列有用,取決於您的假設),包括用於估算此類數據的R包Amelia II。與此同時,斯普拉特公司。已經描述了一種不同的方法,可以在一些隊列時間序列設計中使用,但在軟件實現上很少見。
橫斷面時間序列設計(又名小組研究設計)是一種使用相同的研究方案(例如,相同的變量、儀器等)重複抽樣(例如,每年)對人群進行抽樣的設計。 )。如果抽樣策略具有代表性,這些類型的數據會生成研究中每個人群的這些變量分佈的年度圖片(每個參與者或受試者一次測量)。
隊列時間序列設計(又名重複隊列研究設計、縱向研究設計,有時也稱為小組研究設計)是對單個分析單元進行一次抽樣並長期跟踪的設計。可以從一個或多個群體中以代表性方式對個體進行抽樣。然而,隨著時間的流逝,具有代表性的隊列時間序列樣本將越來越不能代表目標人群(至少在人口中),因為人們出生或老化到目標人群中,並且隨著時間的推移而死亡或老化。隨著移民和移民。
連續隊列時間序列設計(又名重複、多隊列和多隊列,或小組研究設計)是使用相同的研究方案(例如,每年)重複抽樣人群(例如,每年)的設計。例如,相同的變量、工具等),它在一段時間內(例如,在一年中)的兩個時間點測量人口中的各個分析單位,以創建變化率的測量值。如果抽樣策略具有代表性,那麼這些類型的數據會生成研究中每個人群的這些變量的變化率的年度圖片。
參考資料
Honaker, J. 和 King, G. (2010)。如何處理時間序列橫截面數據中的缺失值。美國政治學雜誌,54(2):561-581。
Spratt, M.、Carpenter, J.、Sterne, JAC、Carlin, JB、Heron, J.、Henderson, J. 和 Tilling, K. (2010)。縱向研究中多重插補的策略。美國流行病學雜誌,172(4):478–4876。