Machine-Learning

我什麼時候應該為我的數據應用特徵縮放[重複]

  • October 29, 2014

我和一位同事討論過,我們開始想知道,什麼時候應該對數據應用特徵標準化/縮放?假設我們有一組特徵,其中一些特徵具有非常廣泛的值範圍,而一些特徵的值範圍不那麼廣泛。

如果我要進行主成分分析,我需要對數據進行歸一化,這很清楚,但是假設我們正在嘗試使用簡單的 k 最近鄰/線性回歸方法對數據進行分類。

在什麼條件下應該或不應該對數據進行規範化,為什麼?一個簡短的例子強調添加到答案中的點將是完美的。

您應該在特徵的比例不相關或具有誤導性時進行歸一化,而不是在比例有意義時進行歸一化。

K-means 認為歐幾里得距離是有意義的。如果一個特徵與另一個相比具有較大的規模,但第一個特徵真正代表了更大的多樣性,那麼該維度上的聚類應該受到懲罰。

在回歸中,只要您有偏差,是否歸一化都沒有關係,因為您正在發現仿射圖,並且縮放變換和仿射圖的組合仍然是仿射的。

當涉及學習率時,例如當您進行梯度下降時,輸入比例有效地縮放梯度,這可能需要某種二階方法來穩定每個參數的學習率。如果其他情況無關緊要,標準化輸入可能更容易。

引用自:https://stats.stackexchange.com/questions/121886

comments powered by Disqus