Missing-Data
如何處理不存在(不丟失)的數據?
我從來沒有真正找到任何關於如何處理任何類型分類器輸入的“不存在”數據的好的文本或示例。我已經閱讀了很多關於缺失數據的內容,但是對於與多變量輸入相關的不能或不存在的數據可以做些什麼。我知道這是一個非常複雜的問題,並且會因使用的培訓方法而異…
例如,如果試圖用準確的數據預測幾位跑步者的單圈時間。在眾多輸入中,可能的變量包括:
- 輸入變量 - 首次參賽者 (Y/N)
- 輸入變量 - 上一圈時間(0 - 500 秒)
- 輸入變量 - 年齡
- 輸入變量 - 高度。. . 更多輸入變量等
& 輸出預測器 - 預測單圈時間(0 - 500 秒)
“2.Previous laptime”的“缺失變量”可以通過多種方式計算,但“1. First time runner' 總是等於 N 。但是對於第一次跑步者的“不存在的數據”(其中“1.第一次跑步者”= Y)我應該為“2. 上一圈”?
例如分配'2。以前的單圈時間為 -99 或 0 可以顯著扭曲分佈,使其看起來像一個新的跑步者表現良好。
我目前的訓練方法一直在使用邏輯回歸、SVM、NN 和決策樹
不要為不存在的第一次跑步者上一圈時間分配特殊值,而是簡單地使用前一圈時間的交互項與第一次跑步者假人的倒數:
這裡
- 是你的輸入變量,
- 是你的其他變量,
- 是第一次跑步的人,
- 是前一圈時間和
- 對於非第一次跑步者來說是虛擬的,等於 1,當否則為 0。
那麼第一次跑步的模型將是:
對於非第一次跑步者: