Time-Series

預測等待時間的最佳建模技術?

  • October 5, 2015

我正在探索一些 Stack Overflow 數據。在其他變量中,我有關於提問時間和回答時間的變量。

我有興趣根據編程語言預測提問者可能期望等待多長時間才能回答他們的問題。

我有 26k 觀察結果,分為 10 種語言。在格式方面,我可以將提問和回答的問題之間的時間差格式化為整數,並根據需要通過編程語言對數據進行分組。

理想情況下,我的模型的輸出將非常簡單:只是一個整數/浮點數,表示用戶通常希望在他們的問題得到回答之前等待的分鐘數。

什麼是最合適的建模/機器學習技術(最好是在 Python 中)?我在StatsModels中探索了各種 GLM 類型,但找不到明顯合適的東西。由於數據既不是連續的也不是線性的,我不認為 OLS 是正確的。數據顯然也不是二元的,所以邏輯回歸已經出局了。由於我只是將時間差異作為整數處理,我認為這也不需要時間序列分析模型。

作為記錄,這只是一個基於公開可用的 Stack Overflow 數據轉儲的個人項目。我與 Stack Overflow 沒有任何關係。

等待時間通常可以通過指數分佈建模,但這更好地描述了相同類型的兩個事件之間的時間,例如,它可能很好地模擬了兩個後續問題之間的時間。

回答時間有一些更複雜的屬性:

  • 很有可能永遠不會被回答
  • 在實際出現答案之前會有一些延遲
  • 複雜的問題需要更長的時間(可能被有問題的#characters 大致捕獲?)

由於這些原因,指數分佈不會完美匹配。關於延遲的點是最嚴重的缺陷。生存分析可能是另一種選擇,但也沒有讓人們“等待”時間閱讀和理解問題,然後才能回答。

其他問題包括對一天中的時間和星期幾的依賴。可能有垃圾郵件機器人可以非常快速地回答問題。

由於無論如何這都是探索性的,我將從繪製數據開始。從一些直方圖開始,直到得到答案,看看有多少從未得到答案。按一天中的時間和一周中的一天走相同的圖。看看有沒有區別。然後從那裡計劃。

引用自:https://stats.stackexchange.com/questions/175521

comments powered by Disqus