在離線機器學習中,不同單位特徵的數據歸一化似乎很簡單,我們可以套用這個公式。
但是,當使用增量學習(在我的例子中是加權 kNN)時,新實例將被添加到初始訓練集中,那麼我們是否使用相同的公式?如果是,我應該使用哪個最大值和最小值(原始訓練集或新訓練集的那些)?
在理想情況下,我們的訓練數據應該能夠代表生產數據,這意味著描述性統計數據(例如平均值、最大值或最小值)不應該發生太大變化。因此,在“在線學習”環境中,我們應該能夠使用歷史訓練數據中的最大值和最小值來進行歸一化。
如果訓練數據不能代表生產數據,或者我們不知道生產數據是如何分佈的,答案是1.收集數據;2.做“線下培訓”;然後投入生產。
引用自:https://stats.stackexchange.com/questions/261940