Data-Transformation

為什麼只對訓練集進行特徵縮放?

  • December 19, 2017

我正在關注“Aurelien Geron”的“Hands-On Machine Learning with Scikit-Learn & TensorFlow”一書。

以下是關於特徵縮放的評論:-

與所有轉換一樣,重要的是僅將縮放器擬合到訓練數據,而不是完整數據集(包括測試集)。只有這樣你才能使用它們來轉換訓練集和測試集(以及新數據)

我對上述文字的理解是,特徵縮放只在訓練而不是在測試集上進行。這種解釋正確嗎?

如果是,那麼不對測試數據集使用特徵縮放的原因是什麼?

不完全的。您了解訓練集的均值和標準差,然後:

  • 使用訓練集均值和標準差對訓練集進行標準化。
  • 使用訓練集均值和標準差對任何測試集進行標準化。

這只是遵循一般原則:你學到的任何東西,都必須從模型的訓練數據中學習

引用自:https://stats.stackexchange.com/questions/319514

comments powered by Disqus