Loading [MathJax]/jax/output/NativeMML/config.js

如何規範在線學習中的數據？

February 14, 2017

在離線機器學習中，不同單位特徵的數據歸一化似乎很簡單，我們可以套用這個公式。

但是，當使用增量學習（在我的例子中是加權 kNN）時，新實例將被添加到初始訓練集中，那麼我們是否使用相同的公式？如果是，我應該使用哪個最大值和最小值（原始訓練集或新訓練集的那些）？

在理想情況下，我們的訓練數據應該能夠代表生產數據，這意味著描述性統計數據（例如平均值、最大值或最小值）不應該發生太大變化。因此，在“在線學習”環境中，我們應該能夠使用歷史訓練數據中的最大值和最小值來進行歸一化。

如果訓練數據不能代表生產數據，或者我們不知道生產數據是如何分佈的，答案是1.收集數據；2.做“線下培訓”；然後投入生產。

引用自：https://stats.stackexchange.com/questions/261940

相關問答

K=1 時 KNN 分類器中的訓練誤差

September 14, 2018

Machine-Learning

KNN 應該使用哪種類型的數據規範化？

August 25, 2018

為什麼我們需要擬合 k 最近鄰分類器？

June 5, 2018

R

具有連續和二元變量的 K 最近鄰

March 31, 2017

K-Nearest-Neighbour

R中傾向得分匹配後的不同結果

February 9, 2017

Machine-Learning

生成最近鄰變得毫無意義的高維數據集

December 27, 2016