Loading [MathJax]/jax/output/NativeMML/config.js

Machine-Learning

我什麼時候應該為我的數據應用特徵縮放[重複]

October 29, 2014

我和一位同事討論過，我們開始想知道，什麼時候應該對數據應用特徵標準化/縮放？假設我們有一組特徵，其中一些特徵具有非常廣泛的值範圍，而一些特徵的值範圍不那麼廣泛。

如果我要進行主成分分析，我需要對數據進行歸一化，這很清楚，但是假設我們正在嘗試使用簡單的 k 最近鄰/線性回歸方法對數據進行分類。

在什麼條件下應該或不應該對數據進行規範化，為什麼？一個簡短的例子強調添加到答案中的點將是完美的。

您應該在特徵的比例不相關或具有誤導性時進行歸一化，而不是在比例有意義時進行歸一化。

K-means 認為歐幾里得距離是有意義的。如果一個特徵與另一個相比具有較大的規模，但第一個特徵真正代表了更大的多樣性，那麼該維度上的聚類應該受到懲罰。

在回歸中，只要您有偏差，是否歸一化都沒有關係，因為您正在發現仿射圖，並且縮放變換和仿射圖的組合仍然是仿射的。

當涉及學習率時，例如當您進行梯度下降時，輸入比例有效地縮放梯度，這可能需要某種二階方法來穩定每個參數的學習率。如果其他情況無關緊要，標準化輸入可能更容易。

引用自：https://stats.stackexchange.com/questions/121886

相關問答

Machine-Learning

哪個是第一位的 - 領域專業知識或實驗方法？

December 30, 2021

可以使用多項式邏輯回歸學習任何數據嗎

October 26, 2021

我如何使我的二元分類器偏愛假陽性錯誤而不是假陰性？

January 24, 2021

Neural-Networks

邏輯回歸是神經網絡的一個特例嗎？

December 15, 2020

Machine-Learning

Brier 分數和極端的階級失衡

September 25, 2020

所有機器學習算法是否都分為分類和回歸，而不僅僅是監督學習？

July 19, 2020