為時間序列數據選擇生成模型
我希望嘗試使用一些生成模型生成經濟時間序列數據(GDP、通貨膨脹、失業等)。我正在考慮將它們與 LSTM 以及更多的 AR(p) 樣式模型一起使用,所以我更喜歡生成長數據字符串的模型(即從 t = 0 到 t = 20 的膨脹或其他東西),但如果這不會產生好的結果,我猜它可能不會,我也可以使用 AR(p) 樣式的結果(即輸出只有 t = 0 和 t = 1)。
我正在考慮使用生成對抗網絡 (GAN) 或深度信念網絡 (DBN) 來生成我的數據,但我不確定我應該將研究重點放在哪個方面。我不需要的一件事是 GAN 擅長的用於圖像生成的深度卷積層,而過度擬合時間序列的模型也是我想要避免的一個問題(經濟時間序列在 50 個國家/地區可能有 5000 個觀察值,所以GAN 可能必須非常淺)。另一方面,我讀到受限玻爾茲曼機現在被認為是玩具模型(不確定是否也考慮 DBN)。也不確定 DBN 與 Real Valued Output 的性能。
如果您對我可以使用的其他類型的模型有其他建議,請務必告訴我。但是,我真的希望從機器學習的角度盡可能達到最先進的水平(考慮到我是一個擁有良好機器學習和神經網絡經驗的人,但不是擁有實驗室和 30 年研究生成模型經驗的教授) . 我也知道經濟學家通常不會生成數據來提高模型性能,但這是一個研究項目,我想看看我是否可以通過一些生成的數據更好地提高模型性能(並希望了解因果關係)。
我知道這個問題可能是主觀的,但也許有人可以解釋 DBN 和 GAN 的優缺點。每個對我的問題有多大幫助。
我認為使用來自深度學習的生成模型不會將你所考慮的時間序列經濟數據帶到任何地方,而 GAN 可能是你的應用程序中最差的生成模型。
您正在考慮的是能夠從中採樣,應由您使用的 LSTM 或 AR 模型捕獲。這裡的關鍵是概率是條件概率,而生成模型是無條件概率. 例如,大多數生成模型將一些相對無意義的潛在變量值作為輸入,因此您甚至無法製作一個模型作為您的輸入。
我的建議是簡單地假設一個 AR(1) 類型的過程,並採取作為一個簡單的多層感知器的輸入來預測. 這有點像你的 AR 線性模型和 LSTM 之間的複雜模型,但多層感知器可以捕獲比 AR 線性模型更多的非線性依賴性,並且方差更小,並且比 LSTM 更容易訓練。
您提到您未能使用 AR 和 LSTM 模型。使用 LSTM 通常很難處理經濟數據的高方差數據,並且可以快速過擬合到某個未知區域。如果您仍想嘗試,一個建議是假設所有變量的正態分佈,並使用 LSTM 輸出模型預測的均值和方差。