Time-Series

時間序列分類:SVM、神經網絡、隨機森林或非參數模型

  • June 5, 2013

我的數據集由標籤組成,,這是因變量,以及大約 20 列自變量,,.

這些樣本是時間序列,我的目標是分類根據.

因變量只能得到兩個標籤:““ 要么 ””。

屬於““ 要么 ”" 不需要標籤,儘管它可以為分析帶來更多價值。

我想知道以下哪種方法最適合我的情況以及為什麼(如果需要,我最終應該如何設置方法和參數):

  • 支持向量機:我應該使用哪個內核(線性、多項式、徑向基、sigmoid)?
  • 神經網絡:我應該設置多少層和節點?
  • 隨機森林
  • 應用於二元結果的非參數模型(這提供了屬於每個類別的概率)

你能給我什麼建議?

恕我直言,這些決定只能在對問題和手頭數據有深入了解的情況下以明智的方式做出(搜索術語:模式識別/分類沒有免費午餐定理)。所以我們在這裡可以告訴你的都是非常一般的經驗法則。

  • 您用於訓練的統計獨立案例越多,您可以負擔的模型就越複雜。經常選擇非常嚴格的模型(例如線性模型),因為在給定的數據量下無法提供更複雜的模型,而且更不用說真正相信具有實際線性的類邊界。

請參閱偏差方差權衡和模型複雜性,例如在統計學習的要素中

  • 關於您的問題和數據性質的知識也可能會建議合理的特徵生成方式。
  • 如果您沒有非常多的樣本,但絕對需要非線性邊界並因此得到不穩定的模型,那麼集成模型(如隨機森林)可以提供幫助。您不僅可以聚合決策樹,還可以聚合所有其他類型的模型。
  • 有傳言說,對於模型的最終質量,模型的選擇通常不如用戶對所選模型類型的體驗重要。我試圖在這個問題中收集一些關於這個謠言的證據

結論是找一個對您考慮的分類器有經驗的人進行諮詢,或者甚至更好地對您的數據類型進行分類(這需要更詳細的描述,而不僅僅是說它是時間序列)。

注意:前三個也可以設置輸出後驗概率。

*我不知道有任何科學研究報告了這一點,但聽過很多人報告了這一觀察結果,並且有許多關於模型類型之間差異的描述,最終得出的結論是,實踐中的理論差異幾乎不重要.

引用自:https://stats.stackexchange.com/questions/60939

comments powered by Disqus