Time-Series

具有挑戰性的數據集的模型是什麼?(數百個時間序列有很多嵌套)

  • May 1, 2012

我有一個相當複雜的數據集要分析,我找不到一個好的解決方案。

事情是這樣的:

**1.**原始數據本質上是昆蟲歌曲錄音。每首歌曲由幾個突發組成,每個突發由子單元組成。所有人都被記錄了 5 分鐘。爆發的數量及其在記錄中的位置可能因個體而異,以及每個爆發的子單元數量。

**2.**我有每個子單元的載波頻率(基頻),這就是我要分析的。

我的問題:

**1.**一個burst內的頻率明顯不是獨立的(雖然很穩定,但是子單元n-1的頻率會對子單元n產生影響)。

**2.**在一段錄音中,突發也不是獨立的。

**3.**隨著頻率隨著時間的推移而下降,他們甚至更不獨立(個人厭倦了唱歌,所以歌曲的頻率越來越低)。下降似乎是線性的。

**4.**嵌套 = 我有兩個位置 A 和 B 的 3 個重複種群。所以我有 A1、A2、A3 和 B1、B2、B3。

我想做的事:

**1.**表徵我的兩個位置之間的頻率差異(統計測試)

**2.**表徵兩個位置之間的頻率下降(看看其中一個位置是否下降得更快)

怎麼做:

這就是我需要幫助的原因:我不知道。看來我的案例結合了通常不會一起看到的問題。我讀過混合模型、GAM、ARIMA、隨機和固定效果,但我不能確定最好的方法。當我繪製它時(頻率〜子單元編號n),兩個位置之間的差異非常明顯。我還必須考慮其他變量,例如溫度(使頻率更高)等。

我想過:

  • 將個體嵌套在他們來自的副本中,並將副本嵌套在位置(個體/副本/位置)內。
  • 使用隨機的“爆發”效果,因此我考慮了每次爆發內的可變性。
  • 使用固定的“錄音中的突發位置”效果來測量頻率下降(希望它實際上是線性的)。

會是正確的嗎?

有沒有一種特殊類型的模型可以用於這種場景?

這只是一些您可能會覺得有用的一般性建議,更多的是路線圖而不是食譜。

  • 我的直覺是建立一個貝葉斯層次模型,因為它適合迭代模型開發——我認為你不會找到一個現有的模型,它擁有你所追求的所有花里胡哨。但這使假設檢驗變得更加困難,我不知道假設檢驗對您來說有多必要。
  • 聽起來你腦子裡有一個關於昆蟲行為的非正式模型。你說“累了”之類的話,你就知道溫度會使頻率更高,大概是因為動物有更多的能量。聽起來你腦子裡有一個關於昆蟲如何製作歌曲的生成模型。
  • 這個問題聽起來太複雜了,無法“一次性”建模。我認為你必須逐步建立一些東西。我將從一些“強大的簡單假設”開始 - 即,丟棄數據集的大部分複雜性,併計劃在您獲得一個有效的簡單模型後將其重新添加。

因此,首先,我會做一些事情,比如將子單元頻率逐個突發預處理成一個(平均頻率,頻率趨勢)對 - 用 OLS 做這個,並且只是對頻率平均值和趨勢進行建模爆發而不是子單元本身。或者,如果子單位的數量與昆蟲的疲勞程度有關,您也可以這樣做(平均值、趨勢、子單位的數量)。然後建立一個貝葉斯層次模型,其中突發的均值和趨勢的分佈由記錄的均值和趨勢決定,而這又由位置的均值和趨勢決定。

然後添加溫度作為記錄平均值/趨勢的一個因素。

這個簡單的模型應該允許您查看由溫度和位置確定的記錄中各個爆發的平均值和趨勢。試著讓它工作。

然後我會嘗試通過將其添加為由位置和記錄確定的變量來估計突發平均頻率之間的差異(或趨勢,通過劃分突發之間的安靜時間)。下一步是記錄中突發平均值的 AR 模型。

鑑於一些先驗和一些關於爆發性質的非常強的假設(所有信息均由平均值和趨勢給出),這個基本模型將告訴你:

  • 不同位置和不同溫度的突發平均頻率如何?
  • 爆發內趨勢如何按位置和溫度按溫度進行不同的位置
  • 外部爆發趨勢如何按位置和溫度按溫度進行不同的位置

一旦你完成了這樣的工作,那麼可能是時候對子單元本身進行建模並丟棄原始的 OLS 估計了。我會在這一點上查看數據以了解可能適合哪種時間序列模型,並對時間序列模型的參數而不是(均值,趨勢)對進行建模。

引用自:https://stats.stackexchange.com/questions/27455

comments powered by Disqus