Time-Series

如何轉換時間序列數據,以便使用更簡單的技術進行故障預測?

  • December 11, 2012

我知道這主要是一個統計網站,所以如果我跑題了,請重定向我。

我有一個泵系統,有時會損壞,需要更換。我希望能夠預測故障,從而為更換泵的人員提供早期預警。我有泵過程的歷史數據,例如流量、壓力、液體高度等。

我在使用機器學習技術對數據進行分類方面只有少量經驗——基本上我在 coursera 上跟隨並完成了 Andrew Ng 的機器學習課程以及 Andrew Conway 的 Statistics One 的練習,並且我從未使用過機器學習對時間序列進行分類。我正在考慮如何改變我的問題,以便我可以使用我現有的知識。以我有限的知識,我不會得到一個非常理想的預測,但我希望從中吸取教訓,對於這個問題,任何小的預測改進都是有用的,而不是等待故障發生。

我提出的方法是將時間序列變成一個正常的分類問題。輸入將是時間序列窗口的摘要,其中包含窗口中每種數據類型的平均值、標準偏差、最大值等。對於輸出,我不確定什麼效果最好。一種方法是輸出將是泵是否在窗口結束後的特定時間段內發生故障的二進制分類。另一個是輸出將是泵發生故障之前的剩餘時間,因此不是分類,而是回歸(在機器學習意義上)。

您認為這種方法可能會產生結果嗎?是否是“取決於領域和歷史數據”的問題。是否有我沒有考慮過的更好的轉換(輸入和輸出),或者基於時間序列數據的故障預測與更標準的故障預測有很大不同,我的時間最好花在閱讀時間序列的機器學習上?

您可能需要查看生存分析,通過它您可以估計生存函數(故障時間大於特定時間的概率)和危險函數(一個單元發生故障的瞬時概率,假設它沒有到目前為止經歷了失敗)。使用大多數生存分析方法,您可以輸入時不變和時變預測變量。

有多種不同的生存分析方法,包括半參數Cox 比例風險模型(又名 Cox 回歸)和參數模型。Cox 回歸不要求您指定基本的基本風險函數,但您可能會發現您需要一個參數模型來正確捕獲數據中的故障模式。有時參數加速失效時間模型是合適的,其中失效率隨時間增加。

您可以嘗試從 Cox 回歸開始,因為它使用起來最簡單,並且可以檢查您在保持測試集上預測失敗的能力。我懷疑通過某種明確考慮時間和審查(尚未發生故障的泵)的生存分析,您可能會得到更好的結果,而不是試圖將其轉變為非基於時間的分類問題。

引用自:https://stats.stackexchange.com/questions/45670

comments powered by Disqus