Missing-Data

如何處理不存在(不丟失)的數據?

  • March 1, 2011

我從來沒有真正找到任何關於如何處理任何類型分類器輸入的“不存在”數據的好的文本或示例。我已經閱讀了很多關於缺失數據的內容,但是對於與多變量輸入相關的不能或不存在的數據可以做些什麼。我知道這是一個非常複雜的問題,並且會因使用的培訓方法而異…

例如,如果試圖用準確的數據預測幾位跑步者的單圈時間。在眾多輸入中,可能的變量包括:

  1. 輸入變量 - 首次參賽者 (Y/N)
  2. 輸入變量 - 上一圈時間(0 - 500 秒)
  3. 輸入變量 - 年齡
  4. 輸入變量 - 高度。. . 更多輸入變量等

& 輸出預測器 - 預測單圈時間(0 - 500 秒)

“2.Previous laptime”的“缺失變量”可以通過多種方式計算,但“1. First time runner' 總是等於 N 。但是對於第一次跑步者的“不存在的數據”(其中“1.第一次跑步者”= Y)我應該為“2. 上一圈”?

例如分配'2。以前的單圈時間為 -99 或 0 可以顯著扭曲分佈,使其看起來像一個新的跑步者表現良好。

我目前的訓練方法一直在使用邏輯回歸、SVM、NN 和決策樹

不要為不存在的第一次跑步者上一圈時間分配特殊值,而是簡單地使用前一圈時間的交互項與第一次跑步者假人的倒數:

這裡

  • 是你的輸入變量,
  • 是你的其他變量,
  • 是第一次跑步的人,
  • 是前一圈時間和
  • 對於非第一次跑步者來說是虛擬的,等於 1,當否則為 0。

那麼第一次跑步的模型將是:

對於非第一次跑步者:

引用自:https://stats.stackexchange.com/questions/7768

comments powered by Disqus

相關問答