Machine-Learning
KNN 應該使用哪種類型的數據規範化?
我知道有兩種以上的歸一化。
例如,
1- 使用 z 分數或 t 分數轉換數據。這通常稱為標準化。
2-重新縮放數據以具有介於 0 和 1 之間的值。
現在的問題是我是否需要規範化
KNN 應該使用哪種類型的數據規範化?為什麼?
對於 k-NN,我建議將數據標準化和.
k-NN 使用歐幾里得距離作為比較示例的方法。計算兩點之間的距離和 , 在哪裡是的價值-第一個特徵:
為了使所有特徵在計算距離時具有同等重要性,這些特徵****必須具有相同的值範圍。這只能通過標準化來實現。
如果它們沒有被規範化,例如特徵有一個值範圍), 儘管有一個值範圍. 在計算距離時,第二項將是比第一個重要的時間,導致 k-NN 比第一個更依賴第二個特徵。歸一化確保所有特徵都映射到相同的值範圍。
另一方面,標準化確實具有許多有用的屬性,但不能確保將特徵映射到相同的範圍。雖然標準化可能最適合其他分類器,但對於 k-NN 或任何其他基於距離的分類器,情況並非如此。