Data-Transformation
為什麼只對訓練集進行特徵縮放?
我正在關注“Aurelien Geron”的“Hands-On Machine Learning with Scikit-Learn & TensorFlow”一書。
以下是關於特徵縮放的評論:-
與所有轉換一樣,重要的是僅將縮放器擬合到訓練數據,而不是完整數據集(包括測試集)。只有這樣你才能使用它們來轉換訓練集和測試集(以及新數據)
我對上述文字的理解是,特徵縮放只在訓練而不是在測試集上進行。這種解釋正確嗎?
如果是,那麼不對測試數據集使用特徵縮放的原因是什麼?
不完全的。您了解訓練集的均值和標準差,然後:
- 使用訓練集均值和標準差對訓練集進行標準化。
- 使用訓練集均值和標準差對任何測試集進行標準化。
這只是遵循一般原則:你學到的任何東西,都必須從模型的訓練數據中學習。